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首部 以 描述 如 何 系统 地 进行 和 评估 钦 件 工程 实验 为 主要 内 容 的 次 作 
BB 中 不 仪 包括 对 实验 及 其 步 又 的 完整 讲述 ， 还 包含 对 案例 研究 及 系统 文献 综述 的 详细 介绍 


“这 次 含 了 新 的 章节 和 例子 ， 更 加 巩固 了 其 作为 软件 工程 领域 设计 、 构 造 、 执 行 和 评估 实验 的 首 本 著 
作 的 地 位 apenas 价值 : 它 将 成 为 所 有 博士 研究 生 必 读 的 书籍 ， 每 位 学 者 的 书架 上 都 应 该 备 上 
一 本 以 备查 阅 。” 


Michael Oudshoorn, Computing Reviews, 20124F10)] 


“这 本 书 是 一 个 里 程 碑 ， 它 使 得 我 们 能 够 依 此 训练 从 事 软 件 工程 实验 的 研究 者 和 从 业者 
Victor R. Basili， 马 里 兰 人 学 


“改版 中 新 增 的 和 修改 的 部 分 非常 好 地 反映 了 经 验 软 件 工程 这 一 领域 的 成 就 
Anneliese A. Andrews, 上 丹佛 大 学 


“ 杰 次 改版 与 2000 年 出 版 的 著作 同和 名， 详细 益 述 了 软件 工程 研究 中 的 各 种 方法 . 它 以 教科 书 的 方式 呈现 ， 使 
得 其 非 ' ee 或 者 本 科 生 四 年 级 课程 的 教材 ， 从 业者 和 专家 也 能 将 此 书 作 为 使 用 更 加 深奥 
的 方法 的 起 点 而 从 本 书 受 益 | 


L. Benedicenti, Choice, 950% 59/0], 20134751] 


内 容 介绍 

与 其 他 科学 与 工程 学 科 相 似 ， 软 件 工程 需要 一 个 建 模 、 实 验 和 学 习 的 循环 。 在 评价 及 选择 不 同 的 方法 、 技 术 、 语 言 
和 工具 时 ， 实 验 对 于 所 有 的 软件 工程 师 而 言 都 是 非常 有 价值 的 工具 。 

本 书 的 目的 是 通过 受 控 实验 为 学 生 、 教 师 、 研 究 人 员 及 从 业者 介绍 软件 工程 中 的 经 验 研究 。 介 绍 实验 时 采用 了 过 程 
视角 ， 将 描述 的 焦点 放 在 进行 实验 时 需要 执行 的 步骤 上 。 全 书 分 为 三 个 部 分 : 第 一 部 分 介绍 了 实验 中 用 到 的 一 些 理 论 和 
方法 的 背景 知识 ; 第 二 部 分 包括 五 个 章节 ， 分 别 介绍 了 实验 的 五 个 步骤 : 确定 范围 、 计 划 、 操 作 、 分 析 与 结果 展示 。 第 
三 部 分 完整 展示 了 两 个 案例 。 附 录 中 提供 了 课 后 作业 与 统计 方面 的 资料 。 就 整体 而 言 ， 本 书 不 仅 为 经 验 型 研究 ( 特别 是 
实验 ) 提供 了 不 可 或 缺 的 信息 ， 而 且 还 介绍 了 案例 研究 、 ee a aa 
书 的 修改 版 。 另 外 ， 还 增加 了 大 量 的 新 内 容 ， 如 关于 系统 文献 综述 及 案例 研究 的 介 

本 书 是 自 包含 的 ， 外 信件 工 经。 要 人 拉克 论 
与 实践 相 结合 。 研 究 人 员 也 能 从 本 书 中 获得 收益 ， 学 到 如 何 进行 经 验 型 研究 ; 同时 从 业者 也 可 以 在 其 公司 引入 新 的 方法 
或 技术 时 将 之 作为 指导 如 何 评价 这 些 方法 和 技术 的 作业 指南 。 
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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 鸡 断 性 的 优势 ; 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信 息 化 大 潮 的 推动 让， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 "。 自 1998 年 开始 ， 我 们 就 
将 工作 重点 放 在 了 遵 选 、 移 译 国 外 优秀 教材 上。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 和 良 
好 的 合作 关系 , 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brain W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey 
D. Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, 
Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 
学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提供 了 
中 肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 
深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 
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电子 邮件 : hzjsj@hzbook.com a s 
联系 电话 : (010) 88379604 
联系 地 址 ， 北 京 市 西城 区 百 万 庄 南 街 1 号 PENR 


邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 


中 文 版 序 | 


Experimentation in Software Engineering 


It is a sincere pleasure to write this foreword to the Chinese version of our book “ Experi- 
mentation in Software Engineering” . We never imagined that the book would be translated , 
and we are deeply honoured. 

BE J (Experimentation in Software Engineering) 这 本 书 的 中 文 版 写 序 ， 我 们 感到 
由 衷 的 高 兴 。 我 们 从 没 想 过 这 本 书 会 被 翻译 成 中 文 ， 对 此 我 们 深 感 荣幸 。 


The whole book project started as a PhD course in the late 1990s. The course was based 
on a number of articles, since it was impossible to find a course book at that time. As assign- 
ments in the course, each PhD student was asked to summarize a step in the experimentation 
process that we defined based on the available literature. The hand-ins formed the basis for 
several of the chapters, which later was extended and complemented with other parts needed to 
make a comprehensive book on the topic. 

本 书 的 创作 开始 于 上 世纪 90 年 代 末 的 一 门 博士 课程 。 由 于 那 时 无 法 为 这 门 课程 找 
到 合适 的 教科 书 ， 我 们 必须 以 很 多 论文 为 基础 。 作 为 课程 作业 ， 要 求 每 个 博士 生 基 于 
当时 的 文献 ， 总 结 并 定义 实验 过 程 中 的 一 个 步骤 。 这 些 交 上 来 的 作业 成 为 本 书 多 个 章 
节 的 基础 ， 后 来 我 们 又 对 其 他 需要 的 部 分 进行 扩展 和 补充 ， 使 其 成 为 该 主题 一 本 全 面 
的 书 。 


The first edition was published in the end of year 2000 ，and we then got the opportunity 
to release a second edition in 2012. The field had matured since the first edition, and hence it 
felt very good to be able to make additions as well as revising some parts of the first edition. 
We perceive that the book has been well received both by students and fellow researchers in 
empirical software engineering, which is very rewarding based on all work put in to turn our 
material into a book. We hope that the Chinese edition helps us reaching out to an even broa- 
der readership, and that it can help inspiring more research in empirical software engineering. 

第 一 版 于 2000 FERH, Æ 2012 年 我 们 得 到 了 出 版 第 二 版 的 机 会 。 自 第 一 版 
出 版 后 该 领域 已 至 成 熟 ， 因 此 ， 我 们 能 够 很 好 地 对 第 一 版 进行 扩展 和 修订 。 我 们 已 经 
可 以 看 到 ， 这 本 书 在 经 验 软件 工程 领域 的 学 生 和 研究 者 中 广 受 欢 迎 ， 我 们 把 当初 的 材 
料 整合 成 本 书 所 付出 的 努力 是 非常 值得 的 。 我 们 希望 中 文 版 能 够 让 本 书 读者 群 更 加 广 
泛 ， 也 希望 能 够 鼓舞 更 多 的 研究 者 投入 到 经 验 软件 工程 领域 中 来 。 


I would like to express my sincere thanks to my former PhD students (three of them now 


holding full professor positions at Lund university, Sweden and two of them working with soft- 


ware-intensive systems in industry ) for the inspiring collaboration on what turned out to be a 
very successful book project from my point of view- 

这 里 我 也 非常 诚挚 地 感谢 之 前 的 博士 生 (其 中 有 3 个 人 已 经 获得 了 瑞典 Lund 大 学 
的 全 职 教授 职位 ， 还 有 两 个 人 在 工业 界 ， 从 事 软 件 密 集 型 系统 方面 的 工作 ) 。 在 我 看 
来 ,我 们 富有 开创 性 的 合作 最 终 成 就 了 这 本 书 的 成 功 。 


Finally, I would like to extend my deepest gratitude to the initiators of publishing a Chi- 


nese edition and to the translators of the book. 


最 后 我 也 想 对 出 版 本 书 中 文 版 的 发 起 者 和 翻译 者 表达 最 深切 的 感激 。 


Claes Wohlin 
2015 46 A154 
于 瑞典 卡尔 斯 克 重 纳 市 布 京 理 工学 院 
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自 软 件 工程 成 为 一 级 学 科 以 来 ， 关 于 软件 工程 的 研究 方法 得 到 了 更 多 、 更 广泛 的 
重视 。 软 件 工程 领域 日 益 需要 一 本 这 样 的 教材 。 

任何 学 科 的 发 展 都 依赖 于 对 这 个 学 科 所 要 解决 的 基本 问题 的 理解 。 每 个 学 科 解 决 
问题 的 能 力 都 会 随 着 领域 经 验 的 提高 而 提高 。 其 基本 方法 是 把 经 验 封 装 到 模型 中 ， 并 
基于 实验 、 经 验证 据 和 反馈 来 验证 并 确认 模型 的 正确 性 。 对 知识 的 封装 可 以 让 我 们 站 
在 更 高 的 抽象 层次 上 理解 我 们 的 问题 空间 和 解决 空间 ， 并 通过 应 用 反馈 和 学 习 知 道 哪 
些 方法 行 之 有 效 。 这 是 一 种 在 很 多 领域 都 适用 的 方法 ， 壁 如 物理 、 医 学 、 制 造 业 等 。 
这 是 一 个 建 模 、 实 验 、 学 习 和 再 建 模 的 闭环 。 软 件 工程 也 是 一 门 实验 科学 ， 我们 必须 
从 应 用 中 学 习 并 改进 我 们 对 软件 工程 世界 的 理解 。 经 验 软 件 工程 ( Empirical Software 
Engineering) 就 是 这 样 一 种 方法 。 

2012 年 在 Lionel Brand 教授 等 人 的 帮助 下 ， 北 京 航 空 航天 大 学 开始 在 研究 生 中 开 
设 这 门 课程 ， 后 来 得 知 很 多 学 校 都 已 经 或 者 正在 准备 开设 “经 验 软 件 工 程 ” 课 程 ， 但 
是 都 苦于 没有 合适 的 中 文 版 教材 。 计 算 机 学 会 (CCF) 软件 工程 专 委 会 成 立 “经 验 软 
件 工程 学 组 ”时 ， 与 会 老师 进一步 表达 了 这 一 愿望 。 经 过 仔细 考虑 ， 我 们 选择 了 Claes 
Wohlin 等 撰写 的 《Experimentation in Software Engineering) 这 本 教材 ， 并 由 来 自 北京 航 
空 航 天 大 学 的 张 莉 、 中 国 科 学 院 软件 研究 所 的 王 青 、 武 汉 大 学 的 彭 苏 、 浙 江 工业 大 学 
的 宣 琦 组 成 了 翻译 小 组 ， 在 机 械 工 业 出 版 社 华章 公司 的 协助 下 开始 了 本 书 的 翻译 。 

Empirical 在 英文 中 是 指 “ 经 验 的 ”或 “实证 的 ”。 因 此 ，Empirical Software Engi- 
neering 被 译 为 “经 验 软件 工程 ”或 “实证 软件 工程 ”。 但 在 英文 中 Empirical 区 别 于 
Experimental ， 这 里 的 “经 验 ” 不 单单 是 人 在 实践 中 的 主观 体验 和 认 知 ， 更 强调 从 实践 
中 获得 的 客观 证 据 。 

«Experimentation in Software Engineering) 这 本 书 虽然 重点 阐述 了 在 软件 工程 领域 
如 何 进行 实验 研究 ， 但 其 中 首先 讨论 了 为 什么 要 在 软件 工程 领域 展开 经 验 研究 ， 之 后 
介绍 了 主要 的 经 验 研 究 策略 、 软 件 工程 中 常用 的 经 验 研究 方法 ， 因 此 ， 我 们 认为 可 以 
将 其 作为 “经 验 软 件 工程 ”的 一 本 很 好 的 人 门 教材 。 建 议 将 本 书 作为 软件 工程 专业 高 
年 级 本 科 生 、 研 究 生 教材 ， 本 书 也 可 供 企业 工程 技术 人 员 使 用 。 

经 过 近 一 年 的 时 间 ， 翻 译 小 组 多 次 协调 讨论 ， 并 就 一 些 问题 和 原 书 作者 进行 了 沟 
通 ， 最 终 完成 了 翻译 工作 。 由 于 这 是 国内 第 一 本 关于 经 验 软 件 工程 的 书籍 ， 所 以 翻译 
中 最 大 的 挑战 是 术语 的 翻译 。 虽 然 经 多 次 推荐 ， 也 难免 有 不 当 之 处 ,希望 得 到 大 家 的 
指正 。 


译 者 
2015 年 9 月 10 日 
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实验 是 任何 科学 与 工程 研究 的 基础 。 

了 解 一 门 学 科 需 要 建立 与 该 学 科 各 种 元 素 相关 的 模型 ， 比 如 领域 中 的 对 象 和 用 于 
操作 这 些 对 象 的 流程 ， 以 及 流程 与 对 象 之 间 的 关系 。 领 域 知识 的 不 断 发 展 意味 着 需 通 
过 各 种 形式 的 实验 来 检验 演化 模型 。 对 实验 结果 的 分 析 涉 及 学 习 、 对 知识 的 封装 ， 以 
及 随时 改变 和 精炼 模型 的 能 力 。 基 于 此 ， 我 们 对 一 门 学 科 的 理解 也 会 随 着 时 间 的 推移 
而 不 断 地 加 深 。 

各 种 范式 已 经 广泛 应 用 于 诸多 领域 ， 比 如 物理 、 医 学 和 制造 业 等 领域 。 当 这 些 领 
域 开始 使 用 建 模 -实验 -学 习 循环 模式 时 ,它们 才 逐 渐 发 展 成 了 独立 的 学 科 。 每 个 领 
域 都 从 记录 观察 结果 开始 ， 逐 渐 演化 为 调节 模型 变量 并 研究 变量 改变 所 导致 的 结果 。 
各 个 领域 在 本 质 上 不 尽 相 同 ， 体 现在 构成 领域 的 基本 对 象 、 对 象 的 基本 特性 、 包 含 这 
些 对 象 的 系统 的 基本 性 质 、 系 统 中 对 象 和 系统 本 身 以 及 学 科 文 化 之 间 的 关系 等 方面 。 
这 些 差异 都 会 影响 系统 建 模 和 实验 执行 。 

与 其 他 学 科 一 样 ， 软 件 工程 也 需要 建 模 - 实验 -学 习 这 种 循环 模式 。 软 件 工程 研 
究 是 一 门 实验 科学 。 从 事 该 学 科 的 人 主要 可 分 为 研究 者 和 从 业者 。 研 究 者 的 职责 是 了 
解 对 象 (产品 ) 的 性 质 ， 了 解 创 建 和 操作 这 些 对 象 的 过 程 ， 以 及 了 解 系统 范畴 内 两 者 
之 间 的 关系 ; 从 业者 的 职责 是 利用 现 有 最 新 的 知识 构建 更 完善 的 系统 。 这 两 类 人 员 互 
BHAE: 研究 者 需要 在 实验 室 研 究 从 业者 遇 到 的 问题 ， 利 用 实验 来 提出 并 改进 解决 方 
案 ; 从 业者 需 了 解 如 何 构 建 更 好 的 系统 ， 而 关于 这 一 点 研究 者 可 以 通过 构建 模型 来 提 
供 帮 助 。 

在 建 模 和 实验 中 ,研究 者 和 从 业者 都 需要 了 解 软件 工程 学 科 的 本 质 。 不 同 的 软件 
之 间 存 在 差异 : 大 量 的 变量 造成 了 这 些 差异 ， 因 此 理解 这 些 变 量 的 作用 极为 重要 。 就 
像 药 物 ， 其 中 关于 人 类 个 体 遗 传 和 药物 史 的 差异 往往 是 构建 医药 模型 并 解释 实验 结果 
的 主要 因素 ， 软 件 工程 会 处 理 大 量 不 同 的 能 影响 输入 和 结果 的 情境 。 在 软件 工程 中 ， 
许多 技术 通常 涉及 人 工 的 参与 而 非 完 全 自动 化 。 就 如 在 制造 业 中 ， 主 要 的 问题 就 是 理 
解 和 改进 流程 与 其 生产 的 产品 之 间 的 关系 。 然 而 ， 与 制造 业 不 同 ， 软 件 工程 的 流程 是 
开发 而 不 是 生产 ， 因 而 我 们 不 能 收集 来 自 于 完全 重复 的 同一 个 流程 的 数据 。 这 也 促使 
我 们 从 更 高 的 抽象 水 平 去 构建 模型 ， 尽管 如 此 ， 我 们 仍 需 仔细 考量 上 下 文 变量 。 

目前 ， 存 在 的 模型 尚 不 足以 让 我 们 理解 软件 工程 学 科 ; 对 处 理 某 些 特定 情况 技术 
的 局 限 性 尚 缺 乏 认 知 ; 分 析 与 实验 的 不 足 仍然 存在 。 尽 管 存在 诸多 不 足 ， 但 是 关于 最 
后 这 一 点 ， 本 书 将 表明 情况 正在 逐步 改观 。 

本 书 对 经 验 软件 工程 研究 者 和 从 业者 而 言 具 有 极为 重要 的 参考 价值 ， 是 对 该 领域 
的 一 大 贡献 ， 具 有 里 程 碑 意义 。 作 者 收集 了 大 量 的 知识 并 极 富 条 理 地 将 其 撰写 成 书 ， 
同时 提供 了 范围 确定 、 计 划 和 制定、 运行、 分析、 解释 和 归档 等 一 系列 实验 流程 。 它 们 


涵盖 了 从 有 效 性 威胁 到 统计 程序 的 所 有 必要 的 课题 。 

本 书 涵盖 了 执行 软件 工程 实验 所 需 的 大 量 信 息 。 在 以 前 做 实验 的 时 候 ， 我 需要 寻 
找 不 同 的 信息 资源 ， 这 些 信 息 几 乎 全 都 是 从 其 他 学 科 获 取 的 ， 我 需要 尽 我 所 能 将 其 用 
于 满足 自己 的 需求 。 如 果 在 那 时 候 我 能 拥有 这 本 书 ， 它 必 将 节约 我 大 量 时 间 和 精力 ， 
而 且 极 有 可 能 使 我 的 实验 变 得 更 好 ! 


Victor R. Basili 教授 
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非常 荣幸 能 为 本 书 的 修订 版 作 序 (最 初版 本 于 2000 年 出 版 ) 。 我 之 前 使 用 过 本 书 
的 最 初版 本 ， 因 为 这 本 书 正 是 为 教师 和 研究 者 出 版 的 ! 多 年 来 ， 包 括 科 罗拉 多 州立 大 
学 、 华 盛 顿 州 立 大 学 、 丹 佛 大 学 和 维尔 茨 堡 综合 大 学 等 多 所 高 校 的 学 生来 上 我 的 课时 ， 
我 均 使 用 此 书 。 这 些 学 生 有 些 是 大 公司 的 全 职员 工 来 攻读 系统 工程 硕士 学 位 ， 其 他 则 
是 全 日 制 的 硕士 和 博士 生 。 这 本 书 对 他 们 非常 有 帮助 。 除 了 学 习 书 中 的 经 验 软件 工程 
方法 之 外 ， 他 们 也 喜欢 本 书 整 体 上 的 简洁 性 。 我 非常 高 兴 看 到 修订 后 的 版 本 与 最 初版 
本 一 样 ， 仍 然 将 整 书 的 紧凑 和 简单 放 在 第 一 位 。 

与 最 初版 本 相 比 ， 此 版 本 增加 和 修改 的 内 容 完美 地 反映 了 经 验 软件 工程 学 科 当 前 
的 成 熟 度 : 包括 实验 重 现 和 综合 分 析 的 日 益 重 要 ， 以 及 学 术 界 和 专业 领域 对 基于 可 信 
定量 验证 的 新 技术 成 功 转化 这 一 需求 的 日 益 增 强 。 男 一 个 重要 的 进展 是 对 于 经 验 软 件 
工程 实验 伦理 的 扩展 讨论 。 特 别 是 因为 该 领域 没有 关于 实验 伦理 的 正式 定义 ， 所 以 对 
学 生 而 言 ， 知 道 这 些 问 题 ， 以 及 能 够 得 到 一 个 处 理 这 类 问题 的 具体 指导 方针 都 是 极其 
重要 和 有 价值 的 。 

本 书 的 最 初版 本 非常 重视 实验 。 然 而 在 工业 领域 ， 人 们 更 倾向 于 利用 案例 研究 来 
评估 技术 、 软 件 工程 流程 和 软件 产品 。 因 此 额外 增加 案例 研究 这 一 章 非常 有 必要 ， 也 
将 会 很 受 欢迎 。 增 加 系统 文献 综述 这 一 章 也 是 如 此 。 

我 使 用 本 书 的 最 初版 本 教授 定量 软件 工程 这 门 课程 已 经 有 十 几 年 了 ， 本 修订 版 新 
增 的 内 容 整 合 了 我 多 年 来 需要 另外 添加 的 课程 资料 。 更 重要 的 是 ， 在 增加 这 些 新 内 容 
的 同时 ， 它 并 没有 丢失 最 初版 本 的 紧凑 和 简洁 性 。 对 我 个 人 而 言 ， 我 很 开心 能 有 此 修 
订 版 ， 并 会 继续 将 它 作 为 我 上 课 的 教程 以 及 我 学 生 的 研究 资源 。 


Anneliese Amschler Andrews 教授 
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我 有 一 种 强烈 的 信念 ， 即 软件 工程 师 不 仅 需 要 了 解 软件 工程 的 具体 方法 和 流程 ， 
而 且 应 该 知道 如 何 去 评 估 它 们 。 因 此 ， 我 一 直 把 实验 与 经 验 研究 的 原则 作为 软件 工程 
课程 的 重要 组 成 部 分 。 直 到 现在 ， 这 仍然 意味 着 我 们 需要 从 其 他 学 科 选 择 教科 书 ， 通 
常 是 心理 学 ， 然 后 将 该 教科 书 与 期 刊 或 会 议论 文 相 结合 ， 从 而 为 我 们 的 学 生 提 供 软 件 
工程 领域 的 实验 和 经 验 研究 案例 。 

本 书 填补 了 软件 工程 书籍 中 的 一 个 空白 ， 它 简洁 却 不 失 全 面 地 审视 了 软件 工程 的 
一 个 重要 方面 : 对 软件 工程 的 方法 、 方 法 论 、 流 程 执行 的 出 色 程 度 做 了 实验 分 析 。 由 
于 在 我 们 这 个 领域 所 有 这 些 变化 都 非常 迅速 ， 所 以 知道 如 何 评估 新 的 方法 和 流程 非常 
重要 。 本 书 指导 我 们 该 如 何 处 理 这些 问 题 ， 因 此 本 书 不 仅 对 软件 工程 领域 的 学 生 有 用 ， 
对 软件 工程 应 用 方面 的 专业 人 士 也 极 具 价值 。 这 些 专业 人 士 能 : 

。 评估 软件 工程 技术 。 

。 确定 在 已 发 表 的 论文 中 软件 工程 方法 和 流程 的 应 用 价值 或 存在 的 缺陷 。 

本 书 可 以 说 是 软件 工程 研究 人 员 的 宝贵 资源 。 


Anneliese Amschler Andrews 教授 (原名 : von Mayrhauser) 
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你 是 否 曾经 有 过 对 不 同 的 软件 工程 方法 或 技术 进行 比较 评估 的 需求 ? 本 书 介绍 了 
一 种 用 实验 对 软件 工程 中 的 新 方法 和 新 技术 进行 评估 的 方法 。 实 验 对 于 那些 参与 评估 
不 同方 法 、 技 术 、 语 言 和 工具 ， 并 从 中 加 以 选择 的 所 有 软件 工程 师 而 言 是 一 种 极 具 价 
值 的 工具 。 

你 或 许 是 一 个 软件 从 业者 ， 在 将 软件 正式 引进 单位 之 前 ,希望 能 对 其 采用 的 方法 
和 技术 进行 评估 。 你 也 可 能 是 一 个 研究 者 ， 和 希望 将 新 的 研究 成 果 与 已 有 的 研究 成 果 进 
行 比较 ， 从 而 为 新 的 思想 提供 科学 基础 。 你 或 许 是 一 个 老师 ， 认 为 在 软件 工程 中 基于 
经 验 学 习 的 知识 对 学 生来 说 至 关 重 要 。 当 然 ， 你 也 可 能 是 一 个 软件 工程 专业 的 学 生 ， 
希望 学 习 一 些 方法 使 软件 工程 成 为 一 门 科学 ， 以 及 在 比较 不 同 的 方法 和 技术 时 能 够 获 
得 定量 化 的 数据 。 本 书 将 就 如 何 成 功 实现 这 些 目标 提供 相关 的 指导 和 案例 。 


软件 工程 与 科学 


“软件 工程 ”这 一 术语 诞生 于 1968 年 ， 该 领域 目前 仍 处 于 发 展 阶段 。 在 过 去 一 段 
时 间 ， 科 技 的 发 展 和 宣传 式 研 究 驱动 着 软件 工程 的 发 展 。 所 谓 的 宣传 式 研究 是 指 ， 我 
们 发 明和 引入 的 新 方法 、 新 技术 大 都 是 基于 市 场 营销 和 理念 ， 而 非 科 学 的 结果 。 在 某 
种 程度 上 ， 这 也 是 可 以 理解 的 ， 因 为 信息 社会 本 身 也 是 在 过 去 的 几 十 年 中 逐步 建立 的 。 
但 是 ， 从 长 远 来 看 ， 如 果 我 们 想 拥 有 我 们 所 开发 软件 的 控制 权 ， 这 又 是 不 可 接受 的 。 
控制 来 源 于 我 们 希望 在 使 用 新 的 方法 、 技 术 、 语 言 和 工具 之 前 首先 对 它们 进行 评估 。 
而 这 也 将 有 助 于 我 们 把 软件 工程 转变 成 一 门 真正 意义 上 的 科学 。 在 审视 “我 们 必须 把 
软件 工程 变 成 科学 ”这 个 问题 之 前 ， 让 我 们 先 来 看 看 其 他 领域 是 怎么 看 待 科 学 的 。 

在 西蒙 ' 辛 格 (Simon Singh) 博士 的 “ 费 马 大 定理 ”中 [160] ， 对 科学 进行 了 讨 
论 ， 总 结 如 下 : 在 科学 中 ， 物 理 现象 通常 是 在 假说 的 基础 上 提出 的 。 我 们 观察 现象 ， 
如 果 观 察 到 的 现象 与 假说 相 一 致 ， 它 将 成 为 假说 成 立 的 证 据 ; 而 另 一 方面 ， 假 说 也 应 
该 能 够 帮助 预测 其 他 的 现象 。 实 验 对 于 验证 假说 ， 尤 其 是 对 于 验证 假说 的 预测 能 力 ， 
是 极为 重要 的 。 如 果 新 的 实验 支持 某 一 假说 ， 则 我 们 就 有 更 多 的 证 据 支 持 这 一 假说 。 
随 着 证 据 的 增加 和 增强 ， 假 说 会 被 广泛 接受 ， 从 而 成 为 一 种 新 的 科学 理论 。 

科学 的 要 点 就 是 通过 经 验 研 究 进行 假设 检验 ， 然 而 ， 当 前 软件 工程 领域 的 大 部 分 
研究 却 并 不 是 按照 这 个 方式 来 进行 的 。 尽 管 如 此 ， 相 比 于 10 年 前 ， 如 今 通 过 实验 对 新 
的 研究 方案 进行 评估 和 验证 的 需求 却 达 到 了 更 高 层次 的 水 平 。 经 验 研究 通常 包括 调查 、 
实验 和 案例 研究 。 因 此 ， 本 书 的 目的 是 介绍 和 促进 经 验 研究 在 软件 工程 中 的 应 用 ， 其 
中 我 们 尤其 重视 实验 的 方法 。 


本 书 的 目的 


本 书 主要 为 学 生 、 教 师 、 研 究 者 和 从 业者 介绍 针对 软件 工程 的 实验 方法 学 和 经 验 
评估 方法 。 主 要 目标 是 提供 关于 在 软件 工程 中 如 何 进行 实验 来 评估 方法 、 技 术 和 工具 
的 指导 方针 ， 虽 然 其 中 也 会 穿插 其 他 经 验 性 方法 的 简短 介绍 。 我 们 将 从 过 程 的 角度 来 
介绍 实验 ， 重 点 将 关注 执行 实验 所 必须 经 历 的 操作 步 又。 该 过 程 可 推广 到 其 他 类 型 的 
经 验 研究 ， 但 本 书 的 关注 点 仅 限于 实验 和 准 实验 。 

写作 本 书 是 为 了 支持 我 们 所 常 经 历 的 需求 : 使 软件 工程 的 研究 更 加 具有 实验 特色 。 
现在 已 有 一 些 相关 的 书籍 ， 它 们 或 者 以 十 分 笼统 的 方式 来 介绍 该 课题 ， 或 者 只 关注 实 
验 的 某 些 特别 的 部 分 ， 且 大 部 分 都 集中 在 实验 的 统计 方法 上 。 虽 然 这 些 都 很 重要 ， 但 
目前 仍然 缺乏 从 过 程 角度 来 阐述 实验 的 书籍 。 此 外 ， 我 们 几乎 找 不 到 介绍 软件 工程 实 
验 学 的 相关 书籍 。 事实 上 ， 在 本 书 最 初版 本 出 版 之 前 的 确 不 存在 这 样 的 书 。 





本 书 的 范围 

本 书 主 要 关注 软件 工程 中 的 实验 学 ， 即 通过 实验 来 评估 方法 、 技 术 等 。 本 书 提供 
了 一 些 关于 广义 经 验 研究 的 信息 : 包括 案例 研究 、 系 统 文献 综述 和 调查 法 。 目 的 是 对 
这 些 不 同 的 经 验 研 究 方法 做 些 简 要 的 说 明 ， 使 读者 能 够 初步 了 解 并 将 它们 与 实验 相 
结合 。 

书 中 的 各 章 涵盖 了 软件 工程 领域 执行 实验 过 程 中 不 同 的 操作 步 又 。 此 外 ， 关 于 软 
件 工程 经 验 研 究 的 例子 也 贯穿 整 书 。 能 向 软件 工程 师 说 明 经 验 研究 和 实验 能 够 在 软件 
工程 中 成 功 应 用 这 一 点 对 本 书 而 言 非常 重要 。 本 书包 含 两 个 实验 的 例子 。 引 入 这 些 例 
子 是 为 了 说 明 具 体 的 实验 过 程 以 及 如 何 将 软件 工程 中 的 实验 进行 报告 。 我 们 的 目的 是 
使 这 些 研 究 能 成 为 未 来 软件 工程 经 验 研究 的 良好 例子 和 灵感 来 源 。 本 书 注重 实验 ,但 
不 仅 限于 实验 ， 即 我 们 也 提供 其 他 的 方法 ， 比 如 案例 研究 和 调查 法 。 换 句 话说 ， 当 可 
以 使 用 实验 这 样 的 研究 策略 时 ， 我 们 就 没有 必要 再 求助 于 不 包含 定量 数据 的 宣传 研究 
和 市 场 营 销 策略 。 


针对 的 读者 


本 书 的 目标 读者 大 致 上 可 以 分 为 以 下 四 类 。 

FE ”可 以 将 本 书 作为 软件 工程 中 侧重 于 评估 的 实验 导论 。 本 书 适 合作 为 强调 经 
验 研究 的 软件 工程 领域 本 科 生 或 研究 生 的 教科 书 。 本 书包 含 的 习题 和 项 目 任 务 可 以 帮 
助 读者 将 更 多 的 理论 素材 与 实际 应 用 相 结 合 。 

教师 ”如果 觉 得 软件 工程 课程 需要 引入 更 多 的 经 验 研究 ， 则 可 以 在 他 们 的 课程 中 
使 用 这 本 书 。 本 书 适合 作为 该 领域 的 入 门 教程 。 虽 然 我 们 建议 同时 参考 统计 学 的 导论 
课程 ， 但 本 书 的 各 部 分 内 容 亦 足以 互相 支撑 ， 从 而 形成 一 个 统一 的 体系 。 


XII 


研究 者 ”可 以 在 本 书 中 学 到 更 多 关于 如 何 进 行经 验 研究 的 知识 ， 并 把 它们 作为 自 
身 研 究 的 重要 组 成 部 分 。 此 外 ,我们 的 目标 是 : 当 研究 者 在 进行 经 验 研 究 时 ， 也 可 以 
回 到 本 书 ， 将 之 作为 一 份 检查 单 进行 逐 项 检验 ， 同 样 也 可 以 收获 颇 丰 。 

从 业者 ”可 以 将 本 书 作为 一 份 “ 食 谱 ”"， 用 于 在 引进 新 方法 和 新 技术 时 对 它们 进 
行 评 估 。 可 以 学 习 如 何 将 经 验 研 究 用 于 日 常 工作 ， 比 如 在 计划 改变 开发 流程 时 ， 可 以 
使 用 经 验 研究 方法 来 评估 利弊 ， 进 而 提出 建议 。 


概要 


本 书 主要 分 为 三 个 部 分 ， 其 概要 总 结 在 表 1 中 ， 该 表 还 给 出 了 本 书 与 最 初版 本 之 
间 的 相互 对 应 关系 。 第 一 部 分 中 ,第 1 章 总 体 介 绍 了 经 验 研究 领域 的 研究 进展 ， 将 广 
义 的 经 验 研 究 和 狭义 的 实验 方法 均 纳入 软件 工程 的 研究 内 容 之 中 ; 第 2 章 总 体 上 讨论 
了 经 验 策略 (包括 调查 法 、 案 例 研究 和 实验 )， 特 别 从 软件 工程 的 角度 阐述 了 经 验 研 
究 的 内 容 ; 第 3 章 简要 介绍 了 度量 理论 和 应 用 ; 第 4 章 概 述 了 如 何 进行 系统 文献 综述 
以 及 如 何 将 几 个 经 验 研 究 中 的 结果 进行 综合 分 析 ; 第 5 章 给 出 了 案例 研究 概述 ， 将 其 
作为 相关 类 型 的 经 验 研究 ; 第 6 章 则 通过 引入 广义 实验 过 程 ， 重 点 关注 实验 部 分 。 








表 1 本 书 结构 
标 a 修订 版 本 原始 版 本 主要 更 新 
第 一 部 分 背景 
引言 1 1 
关于 重 现 、 综 合 分 析 、 技 术 转 移 和 

iii j i 伦理 学 的 新 章节 
度量 3 3 关于 实践 中 度量 的 新 章节 
系统 文献 综述 4 10® 新 章节 
案例 研究 5 新 章节 
实验 过 程 6 4 
第 二 部 分 “实验 过 程 的 步骤 新 的 运行 例子 
确定 范围 7 5@ 改编 术语 
计划 8 6 
操作 9 7 
分 析 与 解释 10 8 
归档 与 展示 11 9 重大 修改 
第 三 部 分 “实验 示例 
实验 过 程 说 明 12 11 
视角 间 真 有 差异 吗 13 新 章节 
附录 
练习 A 13 将 理解 型 练习 移 到 每 一 章 
统计 表 B A 


D 命名 为 调查 ， 从 不 同 的 视角 。 
D 命名 为 定义 。 


第 二 部 分 中 ， 每 个 实验 步骤 单独 列 为 一 章 。 其 中 ,第 7 章 主要 讨论 如 何 确定 实验 
范围 ; 第 8 章 介 绍 实验 计划 ; 第 9 章 讨论 了 实验 操作 ; 第 10 章 给 出 了 分 析 和 解释 实验 
结果 的 若干 方法 ; 第 11 章 则 讨论 了 实验 的 归档 和 展示 。 

第 三 部 分 包含 两 个 实验 例子 。 其 中 ， 第 12 章 中 的 例子 用 于 说 明 实 验 过 程 。 第 13 
章 中 的 例子 则 用 于 说 明 如 何 将 软件 工程 实验 整理 到 论文 中 。 

本 书 将 一 些 练习 和 数据 放 在 附录 A 中 ， 而 将 一 些 统计 表 放 在 附录 B 中 。 这 些 统计 
表 为 本 书 中 的 一 些 例子 提供 支持 。 更 多 更 全 面 的 类 似 统计 表 在 大 多 数 统计 类 书籍 中 均 
可 以 找到 。 


练习 


本 书 的 练习 分 为 四 类 。 第 一 类 在 本 书 第 一 部 分 和 第 二 部 分 中 每 章 (第 1~11 章 ) 
的 结尾 ， 其 他 三 类 则 在 附录 A 中 ， 包 括 : 

理解 型 练习 ”每 章 最 后 的 5 个 问题 包含 最 重要 的 知识 点 ， 其 目标 是 确保 读者 理解 
最 重要 的 概念 。 

训练 型 练习 ”这些 习 题 提供 了 实践 实验 的 机 会 。 特 别 地 ， 这 些 习 题 可 以 用 于 分 析 
实验 相关 数据 并 回答 实验 相关 问题 。 

回顾 型 练习 ”此 练习 是 针对 第 12 ~ 13 章 中 给 出 的 实验 例子 的 。 其 目的 是 回顾 已 提 
出 的 一 些 实验 。 在 读 过 文献 中 的 一 些 实验 后 ， 你 会 发 现 大 多 数 实 验 都 会 有 一 些 问 题 ， 
主要 是 因为 在 软件 工程 中 进行 实验 时 存在 着 继承 问题 。 我 们 提出 了 自己 的 一 些 研 究 例 
子 ， 而 不 是 简单 评论 他 人 的 工作 。 在 我 们 看 来 ， 这 些 研 究 例子 在 已 发 表 的 实验 类 型 中 
具有 代表 性 ， 自 然 也 会 有 各 自 的 长 处 和 短处 。 

任务 型 练习 ”这些 习题 用 于 说 明 如 何 使 用 实验 进行 评估 。 这 些 任 务 是 一 些 可 以 在 
学 校 或 公司 的 课堂 内 进行 的 学 习 例 子 ， 它 们 只 针对 一 些 能 够 通过 简单 实验 就 可 以 解决 
的 问题 。 这 些 任 务 既 可 以 在 读 过 本 书 之 后 完成 ， 也 可 以 在 阅读 此 书 时 解答 。 后 者 提供 
了 一 个 在 阅读 本 书 时 可 以 随时 练习 的 机 会 。 作 为 替代 方案 ,我 们 建议 老师 在 自己 的 专 
业 领 域内 制定 一 项 任务 ， 此 任务 可 以 作为 例子 用 于 说 明 整 书 每 章 中 提出 的 概念 。 


| 致 谢 


Experimentation in Software Engineering 


本 书 基于 2000 年 出 版 的 《软件 工程 中 的 实验 方法 : 导论 》 (Experimentation in 
Software Engineering: An Introduction) 一 书 。 本 版 是 原 书 的 修订 扩展 版 。 我 们 修订 了 
原 书 中 的 几 个 部 分 ， 同 时 也 增加 了 一 些 新 的 内 容 ， 比 如 系统 文献 综述 以 及 案例 研 
究 等 。 

通常 而 言 ， 一 本 书 的 完成 并 不 会 仅仅 是 作者 的 功劳 。 对 于 一 本 新 书 而 言 ， 来 自 其 
他 方面 (比如 家 庭 成 员 、 朋 友 、 同 事 、 国 际 同行 以 及 资助 机 构 等 ) 的 支持 与 帮助 同样 
不 可 或 缺 。 本 书 也 不 例外 。 特 别 地 ， 我 们 衷心 感谢 《软件 工程 中 的 实验 方法 : 导论 》 
一 书 的 读者 ， 你 们 对 该 书 的 使 用 是 激发 我 们 出 版 新 版 本 的 动力 源泉 。 同 样 地 ， 我 们 也 
感谢 巴西 贝 南 博古 联邦 大 学 的 Alan Kelon Oliveira de Moraes 先生 给 我 们 发 Email, 
促使 了 本 书 的 诞生 。 此 外 ， 我 们 还 要 感谢 以 下 个 人 对 本 书 做 出 的 贡献 。 

首先 ， 我 们 要 感谢 本 书 的 第 一 个 主要 的 外 部 读者 ， 意 大 利 巴里 大 学 的 Giuseppe 
Visaggio 教授 ， 他 在 课堂 上 使 用 本 书 的 初稿 ， 并 为 我 们 提供 了 有 价值 的 反馈 信息 。 感 谢 
美国 丹佛 大 学 的 Anneliese Andrews 教授 以 及 加 拿 大 瀑 太 华 大 学 的 Khaled El Emam 博士 
第 一 时 间 鼓 励 我 们 出 版 此 书 并 给 我 们 提供 了 有 价值 的 建议 。 感 谢 卢 森 堡 大 学 的 Lionel 
Briand 博士 ， 德 国 曼 海 姆 大 学 的 Christian Bunse 博士 ， 以 及 曾 在 德国 凯 泽 斯 劳 滕 弗 劳 恩 
霍 夫 试验 软件 工程 研究 所 工作 的 John Daly 博士 所 提供 的 有 关 面 向 对 象 设计 案例 的 数 
据 。 此 外 ， 也 感谢 Thomas Thelin 博士 允许 我 们 将 他 和 本 书 其 中 两 位 作者 一 起 完成 的 实 
Ie PETRA BP 

本 书 的 前 期 初稿 在 Lond 大 学 的 软件 工程 研究 小 组 内 部 进行 了 使 用 和 评估 。 我 们 很 
感谢 该 研究 小 组 的 成 员 对 本 书 不 同 的 原始 版 本 给 出 的 反馈 意见 。 特 别 地 ， 我 们 想 感谢 
Lars Bratthall 博士 花 时 间 仔 细 地 评阅 了 初稿 并 给 出 了 有 价值 的 意见 。 此 外 ， 我 们 也 感 
谢 其 他 匿名 评审 人 为 此 书 做 出 的 贡献 。 

对 于 本 书 的 当前 版 本 ， 我 们 收 到 了 许多 有 价值 的 直接 贡献 以 及 改进 建议 ， 鉴 于 此 ， 
我 们 想 感 谢 美 国 丹佛 大 学 的 Anneliese Andrews 教授 ， 英 国 杜 伦 大 学 的 David Budgen 教 
授 ， 英 国 基 尔 大 学 的 Barbara Kitchenham 教授 ， 瑞 典 布 莱 金 厄 技术 研究 所 的 Jürgen 
Borstler 教授 、Samuel Fricker 博士 和 Richard Torkar 博士 。 也 感谢 Jesper Runeson 先生 将 
本 书 转换 成 TEX 格式 。 

除了 以 上 人 员 ， 我 们 还 要 感谢 国际 软件 工程 研究 网 络 (International Software Engi- 
neering Research Network, ISERN) 的 所 有 成 员 关 于 经 验 软 件 工程 研究 在 一 般 意义 下 有 
意思 及 有 启发 性 的 讨论 。 

对 于 案例 研究 这 一 章 ， 我 们 感谢 ISERN 成 员 以 及 2007 年 9 月 份 经 验 软 件 工程 国际 
前 沿 学 校 的 成 员 对 检查 单 给 出 的 反馈 意见 。 其 中 要 特别 感谢 Weyns 博士 和 Andreas 
Jedlitschka 博士 对 该 章 前 期 初稿 的 评阅 。 


Lund 大 学 和 布 莱 金 厄 技术 研究 所 的 许多 研究 项 目 多 年 来 为 本 书 提供 了 持续 的 页 
献 。 多 个 基金 资助 了 这 些 以 经 验 研究 为 基石 的 项 目 ， 从 而 帮助 我 们 积累 了 创作 本 书 的 
经 验 。 从 一 定 程 度 上 而 言 ， 本 书 是 所 有 这 些 项 目的 结晶 。 
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暂且 不 论 信息 技术 革命 意味 着 什么 ， 至 少 它 已 经 让 软件 成 为 越 来 越 多 产品 中 的 一 
部 分 。 从 烤箱 到 航天 飞机 ， 都 可 以 发 现 软件 的 存在 。 从 中 可 以 看 出 ， 有 大 量 软件 已 经 
被 开发 出 来 或 者 正在 开发 过 程 中 。 软 件 开发 绝 不 是 一 件 简单 的 事情 ; 它 是 一 个 富有 高 
度 创造 性 的 过 程 。 软 件 领 域 的 迅速 发 展 也 使 软件 项 目 开 发 遇 到 很 多 问题 ， 比 如 功能 不 
全 、 费 用 超支 、 逾 期 完工 、 质 量 低下 等 。 这 些 问 题 或 挑战 早 在 20 世纪 60 年 代 就 已 提 
出 ， 并 且 在 1968 年 提出 了 “软件 工程 ”一 词 ， 旨 在 创建 一 种 着 眼 于 软件 密集 型 系统 开 
发 的 准则 。 

IEEE [84] 对 软件 工程 的 正式 定义 为 : 软件 工程 意味 着 将 系统 化 的 、 严 格 约束 
的 、 可 量化 的 方法 应 用 于 软件 的 开发 、 运 行 和 维护 中 。 软 件 工程 也 在 很 多 著作 中 被 提 
及 和 讨论 ， 如 Sommerville [163], Pfleeger 和 Atlee [134] 等 。 本 书 的 目的 是 阐明 经 验 
研究 (Empirical Study) 和 特定 的 实验 方法 非常 适用 于 软件 工程 领域 。 上 面 定义 中 的 三 
个 方面 对 本 书 非常 重要 。 首 先 ， 它 指出 软件 过 程 跨 越 了 生命 周期 的 不 同 阶段 ; 第 二 ， 
它 强 调 了 对 系统 化 的 、 严 格 约束 的 方法 的 需求 ; 第 三 ， 它 强调 了 量化 的 重要 性 。 经 验 
研究 的 使 用 和 这 三 个 方面 都 有 关系 。1. 1 节 将 进一步 讨论 软件 工程 背景 。1. 2 节 讨 论 使 
软件 工程 更 科学 化 的 必要 性 以 及 经 验 研究 在 此 过 程 中 发 挥 的 重要 作用 。 


1.1 软件 工程 背景 


软件 过 程 模型 用 于 描述 软件 开发 时 所 采取 的 步骤 和 执行 的 活动 。 软 件 过 程 模 型 有 
瀑布 模型 、 增 量 开 发 模型 、 演 进 式 开发 模型 、 螺 旋 模 型 ba 
以 及 各 种 敏捷 开发 模型 等 ， 这 些 模型 在 一 般 软 件 工程 书 
籍 中 都 有 介绍 。 软 件 过 程 的 示意 图 如 图 1-1 所 示 。 值 得 TARR ar 
品 ， 过 程 都 是 至 关 重 要 的 。 图 1-1 软件 过 程 示意 图 


注意 的 是 ， 无 论 是 开发 一 个 新 产品 还 是 维护 现 有 的 产 

在 图 1-1 中 ,产品 构 想 和 以 人 员 为 主要 形式 的 资源 作为 软件 过 程 的 输入 ， 这 些 人 
员 在 软件 过 程 中 通过 采取 不 同 的 步 又、 执行 不 同 的 活动 来 进行 软件 产品 的 开发 。 

软件 产品 的 开发 往往 是 一 项 非常 复杂 的 工作 。 由 于 软件 产品 的 复杂 性 ， 软 件 项 目 
有 时 可 能 会 经 历 很 长 的 一 段 时 间 〈 即 使 使 用 敏捷 开发 )， 并 涉及 许多 人 员 。 这 意味 着 
软件 过 程 通常 会 变 得 非常 复杂 ， 在 交付 最 终 产 品 之 前 ， 软 件 过 程 包含 各 种 各 样 的 活动 ， 
并 且 需 要 撰写 许多 文档 。 软 件 过 程 的 复杂 性 意味 着 很 难 对 其 进行 优化 ， 甚 至 难以 找到 
一 个 足够 好 的 过 程 。 因 此 ， 对 企业 来 说 ， 为 了 维持 其 竞争 力 ， 一 套 能 够 提高 其 业务 水 
平 的 方法 至 关 重 要 。 这 意味 着 为 了 达到 改善 产品 、 降 低 成 本 等 目的 ， 大 多 数 企业 都 在 
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不 断 地 努力 改进 其 软件 过 程 。 软 件 过 程 强调 的 是 需要 一 种 系统 规范 的 工作 方式 。 敏 捷 
方法 也 不 例外 。 尽 管 敏捷 方法 强调 不 需要 太 多 的 文档 ， 强 调 能 够 连续 地 运行 代码 (而 
不 是 仅 在 一 个 大 项 目的 后 期 运行 ) ， 但 是 它 仍然 期 望 有 一 种 结构 化 的 方法 。 在 改进 软件 
过 程 时 也 需要 一 种 系统 规范 的 方法 ， 因 此 需要 一 种 改进 过 程 的 方法 。 

一 个 可 裁剪 并 改进 软件 过 程 的 例子 是 Basili [7] 提出 的 质量 改进 模式 〈Quality Im- 
provement Paradigm，QIP) ， 它 由 若干 步 又 组 成 ， 以 支持 系统 规范 的 改进 方法 。 在 2.9.2 
节 将 简单 介绍 QIP。 一 种 更 通用 的 改进 过 程 是 著名 的 “计划 /执行 /研究 /行动 ” 环 
(Plan/Do/Study/Act) [23, 42]， 下 面 重 点 说 明 一 下 该 改进 过 程 所 包含 的 两 种 活动 
(有 时 会 使 用 不 同 的 术语 ) : 

。 软件 过 程 评估 。 

。 对 软件 过 程 改 进 建议 的 评价 。 

其 中 ,评估 用 来 识别 过 程 改 进 的 机 会 。 现 在 已 有 一 些 用 于 评估 软件 过 程 的 模型 ， 其 中 
最 著名 的 模型 就 是 美国 卡 内 基 ' 梅 隆 大 学 软件 工程 研究 所 的 能 力 成 熟 度 模型 CMM 
[33 ,130]。 该 评估 模型 有 助 于 准确 定位 需要 改进 的 地 方 。CMM 定义 了 五 个 成 熟 度 级 
别 ， 每 个 级 别 上 都 有 对 应 的 关键 过 程 域 。 一 般 建议 企业 根据 其 成 熟 度 级 别 来 重点 考虑 
对 应 的 改进 部 分 。 

假如 可 以 通过 某 种 形式 的 评估 来 识别 需要 改进 的 过 程 域 ， 那 么 下 一 步 就 要 确定 怎 
样 定 位 这 些 改进 域 来 解决 已 经 发 现 的 问题 。 比 如 ， 如 果 在 系统 测试 时 发 现 太 多 缺陷 ， 
那么 可 能 就 要 改进 早期 的 测试 、 审 查 甚至 某 个 开发 阶段 ( 比如 ， 软 件 设 计 )。 其 目标 
是 通过 对 当前 现状 的 评估 以 及 对 当今 先进 水 平 的 了 解 ， 给 出 过 程 改 进 的 具体 建议 。 在 
确定 改进 建议 后 ， 就 需要 确定 引入 哪些 改进 。 通 常 ， 不 能 仅 改 变 当 前 的 软件 过 程 ， 而 
不 先 评价 改进 的 实际 效果 。 换 而 言 之 ， 在 做 任何 大 的 改变 之 前 都 需要 对 这 些 改 进 建议 
进行 评估 。 

随 之 产生 一 个 问题 ， 即 如 果 没 有 人 员 的 直接 参与 ， 对 过 程 改 进 建议 的 评估 是 很 难 
进行 的 。 对 于 产品 来 说 ， 或 许可 以 事先 建立 一 个 原型 来 评估 该 产品 运行 时 的 情况 。 但 
对 于 过 程 而 言 ， 则 难以 构建 这 样 的 原型 。 通 常 可 以 通过 仿真 和 比较 的 方法 来 对 过 程 进 
行 评估 ， 但 这 仍然 是 基于 模型 的 评估 。 真 正 对 过 程 或 者 过 程 改进 建议 进行 评估 的 唯一 
方法 就 是 让 人 们 去 使 用 它 ， 否 则 在 人 们 使 用 它 之 前 它 就 仅仅 是 一 个 描述 。 经 验 研究 是 
对 过 程 和 基于 人 的 活动 进行 评价 的 一 种 主要 方法 ， 同 时 也 是 用 于 评价 软件 产品 或 工具 
使 用 情况 的 常用 方法 。 实 验 为 评估 基于 人 的 活动 提供 了 一 种 系统 化 的 、 规 范 的 、 可 量 
化 和 可 控制 的 方法 。 这 也 是 经 验 研究 通常 用 于 社会 及 行为 科学 的 主要 原因 ， 参 见 Rob- 
son 的 例子 [144]. 

同时 ， 经 验 研究 尤其 是 实验 的 方法 ， 对 于 软件 工程 领域 的 研究 人 员 而 言 也 是 相当 
重要 的 。 新 的 方法 、 技 术 、 语 言 和 工具 都 不 应 该 仅仅 只 是 提出 来 、 发 表 、 投 入 市 场 那 
么 简单 。 将 这 些 新 的 发 明和 建议 与 现存 的 方法 进行 比较 ， 来 对 其 进行 评估 也 变 得 尤为 
重要 。 实 验 的 方法 提供 了 这 种 机 会 ， 因 此 应 该 利用 起 来 。 换 而 言 之 ， 在 进行 软件 工程 


区 到 











研究 时 ， 我 们 应 该 学 会 使 用 这 些 已 有 的 方法 和 策略 。 下 面 将 会 详细 介绍 。 


1. 2 科学 与 软件 工程 


软件 工程 是 一 个 跨 学 科 的 学 科 。 它 从 技术 问题 (如 数据 库 和 操作 系统 ) 跨越 到 语 
言 问题 〈 如 语法 和 语义 ) ， 再 到 社会 问题 和 心理 学 。 软 件 开 发 是 人 力 密集 型 的 活动 ， 
至 少时 至 今日 我 们 尚 不 能 “机 械 化 地 制造 ”出 新 的 软件 。 它 是 一 个 基于 在 该 领域 工作 
的 人 的 创造 力 和 聪明 才智 的 学 科 。 即 便 如 此 ， 在 学 习 和 研究 软件 工程 时 ， 我 们 仍然 将 
其 看 作 一 门 科 学 学 科 。 这 意味 着 针对 软件 开发 方法 的 改变 ， 我 们 应 采用 科学 的 方法 开 
展 研 究 和 做 出 决定 。 

为 了 在 软件 工程 领域 进行 科学 研究 ， 我 们 必须 理解 这 些 已 有 的 方法 、 它 们 的 局 限 
性 和 适用 条 件 。 软 件 工 程 源 于 技术 范畴 ， 因 此 自然 会 考虑 到 研究 中 已 使 用 的 方法 ， 如 
硬件 设计 和 编码 理论 ， 但 是 基于 软件 工程 跨 学 科 的 特性 ， 我 们 还 应 该 考虑 其 他 学 科 的 
研究 方法 。Glass 总 结 了 软件 工程 领域 的 四 种 研究 方法 [62 ] ， 而 将 这 些 方法 用 于 软件 
工程 领域 则 是 Basili 最 早 提出 的 [9]。 这 些 方 法 如 下 。 

o 科学 方法 (Scientific): 首先 观察 世界 ， 并 在 观察 的 基础 上 建立 模型 ， 如 仿真 

模型 。 

。 工程 方法 (Engineering): 首先 研究 当前 解决 方案 ， 然 后 提出 修改 建议 ， 并 进 

行 评估 。 

e 经 验方 法 (Empirical) : 首先 提出 一 个 模型 ， 然 后 通过 经 验 研究 对 其 进行 评价 ， 

例如 ， 案 例 研究 和 实验 的 方法 。 

© AHA (Analytical); 提出 一 个 正式 的 理论 ， 然 后 与 经 验 观察 的 结果 进行 

比较 。 
工程 方法 和 经 验方 法 可 以 被 视 为 科学 方法 的 变 体 [9] 。 

传统 上 ， 分 析 方 法 常用 于 电气 工程 和 计算 机 科学 中 更 形式 化 的 领域 ， 例 如 电磁 理 
论 和 算法 。 科 学 方法 也 应 用 于 应 用 领域 ， 如 仿真 一 个 电信 网 络 以 评价 其 性 能 。 然 而 ， 
需要 指出 的 是 ， 仿 真 不 仅仅 是 科学 方法 中 的 一 种 手段 ， 仿 真 同样 可 以 作为 实验 的 一 种 
手段 。 工 程 方法 主要 应 用 于 工业 界 。 

经 验 研 究 历来 被 用 于 社会 科学 和 心理 学 研究 ， 在 这 些 领 域 我 们 无 法 像 在 物理 学 中 
那样 阐述 自然 规律 .9 社会 科学 和 心理 学 关注 的 是 人 的 行为 。 因 此 ， 在 这 样 的 背景 下 得 
出 的 重要 结论 是 : 软件 工程 是 与 开发 软件 的 人 的 行为 密切 相关 的 。 因 此 ， 除 了 在 特定 
的 技术 领域 中 ， 我 们 不 能 指望 在 软件 工程 中 发 现任 何 形 式 化 规则 或 规律 。 本 书 的 重点 
是 将 经 验 研 究 应 用 于 软件 工程 ， 其 目的 是 在 实施 通用 的 经 验 研 究 和 特定 实验 时 强调 其 
基本 过 程 。 本 书 提出 了 一 个 实验 过 程 ， 强 调 了 实施 实验 的 各 个 基本 步骤 ， 给 出 了 实施 
指南 ， 并 通过 软件 工程 领域 的 案例 展示 各 个 步骤 。 





© Lehman [110] 提 到 了 软件 演化 规律 ， 但 这 个 概念 一 直 没 有 在 后 续 理 论 工作 中 得 到 广泛 应 用 ， 见 2.7 节 。 





必须 指出 的 是 ， 本 书 不 是 说 分 析 方 法 、 科 学 法 和 工程 化 方法 不 适合 软件 工程 领域 。 
它们 对 于 软件 工程 同样 是 必需 的 ， 例 如 ， 我们 可 以 为 软件 可 靠 性 增长 建立 数学 模型 
[116]。 此 外 ， 这 些 研究 方法 并 不 是 正 交 的 ， 比 如 ， 可 以 在 工程 方法 中 适当 采用 经 验 
研究 的 方法 。 重 要 的 一 点 是 ， 我 们 应 该 在 经 验 研究 中 更 好 地 利用 其 他 已 有 方法 ， 这 些 
方法 常 出 现在 其 他 学 科 中 ， 如 行为 科学 等 。 软 件 工 程 的 本 质 使 得 它 与 工程 领域 之 外 其 
他 的 非 技 术 学 科 有 很 多 共同 之 处 。 

根据 Zendler [182] 的 说 法 ， 软 件 工程 中 的 第 一 个 实验 是 由 Grant 和 Sackmann 
[69] 在 20 世纪 60 年 代 末 进行 的 在 线 和 离线 测试 实验 。 在 20 世纪 70 年 代 ， 一 些 先驱 
针对 结构 化 程序 设计 [115] 、 流 程 图 [151] 和 软件 测试 [126] 进行 了 实验 。Basili 
等 [15] 在 80 年 代 中 期 强调 了 系统 化 的 实验 方法 在 软件 工程 中 的 重要 性 。 另 一 些 文章 
则 强调 了 在 软件 工程 中 经 验方 法 的 重要 性 ， 参 见 Basili 、Fenton 、Glass、Kitchenham、 
Pfleeger, Pickard, Potts 和 Tichy 等 的 著作 [9，57，62，97，140，169]。 之 后 ，Tichy 
等 [170] Zelowitz 和 Wallace [181] 、Glass 等 [63] 指出 在 软件 工程 研究 中 缺乏 实 
验 性 证 据 。 后 者 在 其 出 版 物 中 指出 ， 在 软件 工程 研究 中 仍然 存在 过 多 的 宣传 式 研究 
[140] 。 因 此 软件 工程 需要 更 科学 的 研究 方法 。 本 书 的 重点 是 软件 工程 和 经 验 研究 在 
软件 工程 中 的 应 用 ， 尤 其 是 实验 方法 在 软件 工程 中 的 应 用 。Sjgberg 等 人 的 调查 [161] 
表明 ， 在 软件 工程 领域 已 发 表 的 实验 数目 在 逐步 增加 ， 现 在 已 发 表 了 大 量 的 实验 。 

软件 工程 中 的 经 验 策略 包括 : 

。 建立 正式 的 实验 ; 

。 研究 工业 界 的 真实 项 目 ， 如 实施 案例 研究 ; 

o 进行 调查 研究 ， 比 如 访谈 。 

这 些 策略 将 在 本 书 的 第 2 章 和 第 5 章 详细 介绍 ， 之 后 本 书 将 重点 讨论 实验 的 方法 。 
关于 这 些 研究 策略 的 更 一 般 性 介绍 可 参见 Robson [144]; 关于 广义 案例 研究 的 详细 介 
绍 可 参见 Yin [180]; 针对 软件 工程 领域 的 案例 研究 方法 可 进一步 参考 Runeson 等 人 
的 文献 【146 ] 。 这 些 研究 策略 既 不 是 完全 正 交 ， 也 不 是 竞争 关系 。 只 是 给 出 了 一 个 简 
单 的 分 类 ， 有 些 研 究 方法 可 以 被 看 作 是 这 些 策略 的 组 合 ， 或 者 介 于 某 两 种 方法 之 间 。 
因此 ， 不 同 策略 之 间 也 存在 相同 之 处 ， 不 是 严格 意义 上 的 分 类 。 

在 软件 工程 中 运用 实验 方法 的 主要 原因 是 希望 了 解 和 识别 不 同 因素 或 变量 之 间 的 
关系 。 大 量 先 人 为 主 的 观念 存在 ， 但 它们 是 真 的 吗 ? 面向 对 象 的 方法 能 够 提高 重用 性 
吗 ? 代码 审查 的 性 价 比如 何 ? 我 们 是 否 需 要 开 评 审 会 议 ， 或 者 是 否 将 评论 交 给 主持 人 
就 够 了 ? 这 类 问题 都 需要 进行 调查 ， 以 提高 我 们 对 软件 工程 的 理解 。 提 高 认识 是 不 断 
改变 和 改进 我 们 工作 方式 的 基础 ， 因 此 通用 的 经 验 研究 和 特定 的 实验 方法 都 非常 重要 。 

对 该 领域 的 介绍 以 对 一 个 实验 过 程 的 介绍 为 基础 ， 该 过 程 中 的 基本 步骤 也 适用 于 
其 他 类 型 的 经 验 研 究 。 然 而 ， 关 注 焦点 是 为 实施 软件 工程 实验 提供 指导 和 支持 。 此 外 ， 
这 里 需要 说 明 的 是 “真正 的 ”实验 ， 即 完全 随机 的 实验 ， 这 在 软件 工程 中 难以 实现 。 
软件 工程 实验 往往 是 准 实验 ， 即 ， 实 验 中 不 可 能 随机 分 配 实验 的 参与 者 【37] 。 准 实 
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验 可 以 提供 有 价值 的 结果 ， 因 而 也 是 非常 重要 的 。 本 书 讨论 的 过 程 包括 “真正 的 ”的 
实验 和 准 实验 。 后 者 将 在 介绍 实验 威胁 时 全 面 讨论 。 

本 书 的 目的 是 介绍 经 验 研究 和 实验 方法 ， 进 一 步 强调 在 软件 工程 领域 中 做 实验 的 
机 会 和 好 处 。 经 验 研究 方法 能 够 也 应 该 在 软件 工程 领域 中 得 到 更 多 的 应 用 。Tichy 等 人 
[169] 反驳 了 那些 反对 在 软件 工程 中 应 用 经 验 研究 方法 的 言论 。 和 希望 本 书 能 够 有 助 于 
在 软件 工程 研究 和 实践 领域 采用 经 验 研 究 和 实验 的 方法 。 


1.3 练习 


1.1 为 什么 实验 可 被 视 为 过 程 改变 的 原型 方法 ? 

1.2 如何 利 用 实验 进行 活动 改进 ? 

1.3 ”为 什么 经 验 研究 在 软件 工程 中 很 重要 ? : 

1.4 经 验 研 究 方法 在 什么 情况 下 最 适用 于 软件 工程 ? 请 分 别 与 科学 方法 、 工 程 方法 和 
分 析 方 法 进行 比较 。 

1.5 经 验方 法 分 为 哪 三 个 策略 ? 


| 第 2 章 


Experimentation in Software Engineering 


经 验 策 略 





两 种 不 同 的 研究 范式 (探索 性 研究 和 解释 性 研究 ) 通常 采用 不 同 的 经 验 研究 方 
法 。 探 索性 研究 着 重 研 究 自然 环境 中 的 对 象 ， 从 观察 中 发 现 结果 。 这 意味 着 需要 一 种 
柔性 研究 设计 [1] 来 应 对 观察 现象 的 变化 。 柔 性 设计 (Flexible Design) 研究 也 称 为 
定性 研究 (Qualitative Research) ， 因 为 该 研究 主要 从 定性 数据 中 获取 信息 。 归 纳 研究 
试图 利用 人 们 已 经 提出 的 理论 来 解释 现象 。 它 的 关注 点 在 于 发 现 研 究 中 主体 观察 到 的 
起 因 ， 并 理解 他 们 当前 看 待 问题 的 观点 。 这 里 ， 主 体 指 为 了 评估 对 象 而 参与 经 验 研究 
的 人 。 

解释 性 研究 主要 关注 量化 关系 或 者 把 两 个 或 多 个 分 组 和 目标 进行 比较 以 确定 因果 
关系 。 该 研究 往往 通过 建立 受 控 实 验 来 进行 。 这 类 研究 是 一 种 刚性 设计 (Fixed De- 
sign) [1] 研究 ， 即 在 研究 开始 之 前 各 因素 就 已 确定 。 刚 性 设计 研究 也 称 为 定量 研究 
(Quantitative Research) ， 因 为 该 研究 主要 从 定量 数据 中 获取 信息 。 比 如 ， 测 试 一 些 操 
作 或 者 活动 的 效果 时 可 以 采用 定量 调研 。 定 量 数据 的 优点 是 可 以 进行 比较 和 统计 分 析 。 
定性 和 定量 研究 可 以 用 在 同一 个 研究 课题 中 以 处 理 该 课题 中 不 同类 型 的 问题 。 比 如 ， 
定量 研究 可 以 用 于 分 析 一 个 新 的 审查 方法 是 否 减少 了 测试 中 发 现 错误 的 个 数 ， 而 定性 
研究 则 可 用 于 回答 不 同 审查 组 之 间 差 异 的 来 源 。 

如 前 所 述 ， 刚 性 设计 策略 ( 如 受 控 实验 ) 适用 于 测试 某 种 处 理 方法 的 效果 ， 而 信 
念 、 理 解 和 各 种 观点 展示 的 柔性 设计 研究 适用 于 分 析 定 量 研 究 结 果 产 生 的 原因 。 这 两 
种 研究 方法 是 相互 补充 而 不 是 相互 排斥 的 。 

本 章 的 目标 : 中 介绍 经 验 研 究 策略 ; @ 强 调 一 些 与 经 验 策略 有 关 的 重要 方面 ; 
@ 举 例 说 明 如 何在 技术 转让 和 改进 中 使 用 策略 。 为 了 达到 第 一 个 目标 ，2. 1 节 对 经 验 
策略 进行 了 概述 ， 并 详细 讨论 了 调查 、 案 例 研 究 和 实验 。2. 2 节 ~2.4 节 简 要 介绍 了 几 
种 不 同 的 经 验 策略 。2. 5 节 对 这 些 策略 进行 了 比较 。2. 6 节 通 过 采用 重 现实 验 的 方法 来 
达到 第 二 个 目标 。2. 7 节 简 要 地 讨论 了 和 经 验 研究 有 关 的 理论 ，2. 8 节 介 绍 了 经 验 研究 
的 证 据 汇 聚 。 最 后 ，2.9 节 阐 述 研究 策略 在 技术 转让 过 程 中 的 使 用 ， 并 成 为 程序 改善 
的 一 部 分 。 


2.1 经 验 策略 概述 


根据 经 验 研究 的 条 件 和 评估 目的 〈 针 对 技术 、 方 法 或 者 工具 ) 的 不 同 ， 有 三 类 主 
要 策略 : 调查 法 、 案 例 研究 和 实验 [144]. 

定义 2. 1 调查 法 (Survey) 是 一 种 通过 收集 来 自 于 人 或 者 与 人 有 关 的 信息 ， 来 
描述 、 比 较 或 者 解释 人 们 的 知识 、 态 度 和 行为 的 方法 [58]. 
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调查 法 常常 是 一 种 回顾 式 的 调查 过 程 ， 因 此 可 以 在 一 种 工具 或 者 技术 已 经 使 用 一 
段 时 间 之 后 采用 此 方法 [133 ] 。 其 收集 定性 或 定量 数据 的 主要 手段 是 访谈 或 者 调查 问 
卷 。 数 据 采 集 往往 来 自 于 待 研 总 体 的 代表 性 样本 ， 通 过 分 析 调查 结果 可 以 得 到 描述 型 
和 解释 型 的 结论 ， 然 后 再 将 这 些 结论 推广 到 样本 所 属 总 体 。 关 于 调查 法 的 深入 讨论 参 
见 Fink [58] FI Robson [144], 

定义 2.2 软件 工程 中 的 案例 研究 (Case Study) 是 一 种 经 验 性 探究 方法 ， 它 通过 
多 个 证 据 源 来 调查 在 真实 环境 下 当前 软件 工程 现象 的 一 个 实例 〈 或 少量 的 实例 ) ， 尤 其 
用 在 当 现 象 和 环境 的 边界 难以 清晰 界定 的 时 候 [146]。 

案例 研究 可 用 于 研究 项 目 、 活 动 或 者 任务 。 在 研究 过 程 中 有 目的 地 收集 有 关 数 据 ， 
然后 采用 统计 分 析 的 方法 对 所 收集 的 数据 进行 处 理 。 案 例 研究 常常 用 于 跟踪 某 个 特定 
的 属性 或 者 建立 不 同属 性 之 间 的 联系 。 其 控制 程度 低 于 实验 方法 ， 因 为 案例 研究 属于 
观察 性 研究 ， 而 实验 是 一 种 受 控 研究 [181]。 例 如 ， 案 例 研究 可 用 于 构建 一 个 模型 以 
预测 测试 中 错误 的 数量 [2] 。 这 类 研究 常常 会 用 到 多 元 统计 分 析 ， 包 括 线性 回归 和 主 
成 分 分 析 [118 ] 。 针 对 广义 案例 研究 的 深入 讨论 参见 Robson [144], Stake [165] 和 
Yin [180] 等 ， 针 对 软件 工程 的 案例 研究 详 见 Pfleeger [133], Kitchenham 等 [97], 
Verner 等 [173], Runeson 和 Höst [145 ] Runeson 等 [146 ] 。 

对 于 本 书 中 重点 讨论 主要 的 经 验 研 究 策略 一 一 实验 ， 我 们 的 定义 如 下 。 

定义 2.3 软件 工程 中 的 实验 (Experiment， 或 称 受 控 实验 ) 是 一 种 经 验 性 探究 方 
法 ， 它 操控 研究 情境 中 的 一 个 因素 或 者 变量 。 在 保持 其 他 变量 不 变 的 前 提 下 ， 通 过 随 
机 选择 的 主体 实施 不 同 的 方案 , 或 者 由 不 同 的 主体 来 实施 同样 的 方案 ， 然 后 测量 对 输 
出 变量 的 影响 。 在 面向 人 的 实验 中 ， 人 们 在 对 象 上 使 用 不 同 的 方案 ; 而 在 面向 技术 的 
实验 中 ， 则 在 不 同 的 对 象 上 使 用 不 同 的 技术 方案 。 

实验 大 都 是 在 实验 室 情境 下 进行 的 ， 以 保障 高 度 的 可 控制 性 。 实 验 中 ， 主 体 被 随 
机 分 配给 不 同 的 方案 。 目 标 是 操控 一 个 或 多 个 变量 ， 并 保持 其 他 变量 相对 稳定 。 然 后 
测量 该 操控 的 结果 ， 并 进行 统计 分 析 。 当 不 能 随机 地 将 方案 分 配给 主体 时 ， 我 们 可 以 
采用 准 实验 的 方法 。 

FEM 2.4 准 实验 (Quasi-Experiment) 是 一 种 类 似 于 实验 的 经 验 性 探究 方法 。 在 
准 实验 中 ,方案 到 主体 的 分 配 不 是 随机 的 ， 而 是 根据 主体 或 者 对 象 本 身 的 特征 来 选 
择 的 。 


在 实验 研究 中 ,统计 推断 的 方法 是 通过 统计 显著 性 来 说 明 一 个 方法 比 男 一 个 方法 
好 [125，144，157] 。 统 计 方法 将 在 第 10 章 中 讨论 。 

调查 法 在 社会 科学 中 很 常见 ， 如 通过 民意 调查 来 判断 下 一 届 选 举 中 公众 会 如 何 投 
票 。 尽 管 调查 法 也 可 以 对 相似 情况 进行 比较 ， 但 是 它 不 会 提供 对 执行 或 者 测量 的 控制 ， 
更 不 可 能 像 其 他 策略 一 样 操控 变量 [6] 。 

案例 研究 可 以 找 出 或 许 对 结果 有 影响 的 关键 因素 ， 并 且 整 个 活动 会 被 记录 下 来 





[165，180] 。 案 例 研 究 是 一 种 观察 性 方法 ， 也 就 是 说 ， 它 是 通过 观察 项 目 或 者 活动 的 
进展 情况 来 完成 的 。 

实验 是 一 种 正式 、 严 谨 且 受 控 的 调查 。 在 实验 中 ， 关 键 因素 被 识别 且 被 操控 ， 而 
实验 情境 中 的 其 他 因素 保持 不 变 ， 详 见 6. 1 节 。 案 例 研究 和 实验 的 区 别 在 于 对 环境 的 
控制 程度 [132] 。 采 用 实验 研究 时 会 刻意 在 不 同 场景 下 执行 操作 ， 以 找 出 两 种 场景 下 
的 区 别 ， 如 一 个 受 控 场景 和 调查 中 的 实际 场景 。 被 操控 的 因素 可 以 是 审查 方法 或 者 软 
件 开发 者 的 经 验 等 。 在 案例 研究 中 ， 调 查 情境 被 研究 中 的 实际 项 目 所 控制 。 

根据 对 调查 研究 的 设计 ， 研 究 策 略 可 以 获得 定性 或 者 定量 的 数据 ， 如 表 2-1 所 示 。 
调查 法 的 类 型 取决 于 调查 问卷 的 设计 ， 即 收集 什么 数据 以 及 是 否 可 以 采用 统计 分 析 方 
法 进行 数据 分 析 都 由 设计 决定 。 案 例 研 究 也 是 如 此 ， 不 同 点 在 于 调查 法 属于 事后 回顾 ， 
而 案例 研究 则 在 项 目 执行 过 程 中 进行 。 当 然 调 查 法 也 可 以 在 项 目 执行 前 启动 ， 尽 管 此 
时 调查 的 目的 是 为 即将 开展 的 项 目 提 供 一 些 想 法 ， 但 它 仍 然 是 基于 先前 的 经 验 ， 并 通 
过 回溯 先前 经 验 来 完成 的 。 


表 2-1 经 验 策略 中 的 设计 类 型 和 定性 /定量 数据 





RO 设计 类 型 定性 /定量 
调查 法 刚性 定性 /定量 
案例 研究 柔性 定性 /定量 
实验 刚性 定量 


实验 基本 上 是 纯 定量 的 ， 因 为 实验 主要 关注 对 各 种 变量 的 度量 。 改 变 这 些 变量 ， 
然后 再 度量 。 在 实验 期 间 ， 收 集 定 量 数 据 并 采用 统计 方法 对 其 进行 分 析 。 当 然 ， 也 可 
以 收集 定性 数据 来 对 数据 进行 解释 [93]。 以 下 各 节 将 对 每 种 经 验 策 略 分 别 进行 介绍 。 


2.2 调查 法 


对 于 已 经 使 用 的 技术 或 工具 [133] ， 或 者 在 引入 它们 之 前 ， 常 采用 调查 法 。 可 将 
调查 法 看 作 抓 取现 状 的 快照 ， 例 如 ， 调 查 法 可 用 于 民意 测验 和 市 场 研究 。 

在 软件 工程 领域 ， 例 如 可 以 采用 调查 法 研究 一 个 新 的 开发 过 程 如 何 通过 提高 开发 
人 员 的 质量 意识 来 实现 质量 保证 或 排序 质量 属性 [94]。 可 以 从 公司 的 所 有 开发 人 员 
中 选取 一 些 开 发 人 员 作 为 样本 ， 让 他 们 来 回答 调查 问卷 以 获得 研究 所 需 的 信息 。 最 后 
将 收集 到 的 信息 整理 成 可 定量 或 定性 处 理 的 形式 。 


2.2.1 调查 法 的 特征 


抽样 调查 的 目的 不 是 为 了 理解 特定 的 样本 ， 而 是 为 了 理解 被 抽样 的 总 体 [6] 。 例 
如 ， 通 过 访谈 25 名 开发 人 员 对 新 过 程 的 看 法 ， 可 以 估计 公司 中 100 名 开发 人 员 的 看 
法 。 调 查 法 的 目的 是 得 到 普遍 性 结论 。 

调查 法 可 以 评估 大 量变 量 , 但 有 必要 努力 通过 最 少 的 变量 获得 对 总 体 的 最 多 了 解 ， 
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因为 减少 变量 也 就 简化 了 数据 收集 和 分 析 工 作 。 调 查 法 中 过 多 的 问题 会 使 应 答 者 烦 于 
回答 ， 从 而 导致 数据 质量 下 降 ; 而 男 一 方面 ， 调 查 法 的 目的 是 得 到 一 个 宽泛 的 概貌 ， 
这 又 不 得 不 涉及 多 个 领域 的 问题 。 


2.2.2 调查 法 的 目的 


调查 法 的 一 般 目 标 可 以 分 为 以 下 三 种 [6]: 

o 描述 型 (Descriptive) ; 

e 解释 型 (Explanatory ) ; 

o 探索 型 (Explorative) o 

描述 型 调查 法 的 目的 是 给 出 一 个 关于 总 体 的 断言 。 该 方法 可 以 确定 某 些 特性 或 属 
性 的 分 布 。 这 里 ， 我 们 不 关心 为 什么 会 存在 观测 到 的 分 布 ， 而 关心 到 底 是 什么 分 布 。 

解释 型 调查 法 旨 在 解释 一 个 总 体 。 例 如 ， 当 研究 开发 人 员 如 何 使 用 某 种 审查 技术 
时 ， 可 能 需要 解释 为 什么 一 些 开 发 人 员 喜 欢 这 种 技术 ， 而 其 他 人 更 喜欢 另 一 种 技术 。 
通过 考察 不 同 备 选 技术 之 间 的 关系 和 一 些 解释 性 变量 ,或 许可 以 尝试 着 解释 为 什么 开 
发 人 员 会 选择 某 一 种 技术 了 。 

最 后 ， 探 索 型 调查 法 常用 作 详尽 研究 之 前 的 预 研究 ， 以 确保 将 来 不 会 忽略 任何 重 
要 问题 。 一 般 来 说 准备 一 个 松散 结构 问卷 ， 并 从 总 体 中 抽样 调查 就 可 以 了 。 收 集 和 分 
析 调 查 所 得 的 信息 ， 其 结果 用 于 之 后 的 详尽 研究 。 换 言 之 ， 探 索 型 调查 不 解决 基础 研 
究 问 题 ， 但 它 可 以 提出 一 些 值 得 分 析 的 新 间 题 ， 以 便 在 后 续 的 特定 研究 或 深信 研究 中 
考虑 。 


2.2.3 数据 收集 


最 常见 的 两 种 数据 收集 方式 是 问卷 调查 和 访谈 [58 ] 。 问 卷 可 以 是 纸 质 的 ， 也 可 
以 是 茶 种 电子 形式 ， 如 电子 邮件 或 网 页 。 通 过 问卷 调查 收集 数据 的 基本 方法 是 将 调查 

















问卷 连同 问卷 填写 说 明 一 起 分 发 出 去 ， 应 答 者 填 完 问卷 后 将 其 反馈 给 研究 者 。 
让 访谈 者 处 理 问 卷 调查 (通过 电话 访谈 或 面对面 访谈 ) 而 不 是 由 应 答 者 自己 填 
写 ， 这 种 做 法 有 如 下 优势 : 
。 访谈 调查 会 得 到 比 邮 件 调查 等 更 高 的 回复 率 。 
。 访谈 通常 会 降低 “不 知道 ”和 “无 应 答 ” 的 数量 ， 因 为 访谈 者 可 以 回答 问卷 
中 的 问题 。 
© 访谈 者 不 仅 可 以 观察 ， 还 可 以 提问 。 缺 点 是 耗 财 、 耗 时 ， 当 然 这 取决 于 样本 的 
数量 和 调查 的 目的 。 


2.3 案例 研究 


案例 研究 是 指 在 特定 的 时 间 限 制 内 ， 对 真实 环境 中 的 单个 实体 或 现象 进行 研究 。 
多 数 情况 下 ， 现 象 可 能 难于 从 其 所 处 环境 中 被 明确 区 分 。 例 如 ， 研 究 人 员 在 一 段 持续 


P2F BBRB 11 








的 时 间 内 收集 单个 项 目的 详细 信息 。 在 进行 案例 研究 时 ， 需 要 采用 多 种 数据 收集 方法 
和 不 同 分 析 角 度 [146] 。 这 里 简要 介绍 不 同类 型 经 验 策略 的 适用 情况 ， 更 详细 的 介绍 
将 在 第 5 章 展 开 。 

举例 来 说 ， 如 果 想 要 比较 两 种 方法 ， 需 要 根据 评估 的 尺度 、 分 离 各 因素 的 能 力 以 
及 随机 化 的 可 行 性 来 决定 是 使 用 案例 研究 还 是 实验 方法 。 案 例 研究 方法 的 一 个 例子 是 ， 
通过 使 用 试点 项 目 ， 将 试点 项 目的 结果 和 某 些 基线 进行 比较 来 评估 试点 的 效果 [97] 。 

案例 研究 非常 适合 对 软件 工程 方法 和 工具 在 工业 界 的 使 用 情况 进行 评估 ， 因 为 它 
可 以 避免 按 比 例 放大 问题 。 案 例 研究 和 实验 的 不 同 之 处 在 于 ， 实 验 样本 所 包含 的 变量 
是 人 为 控制 的 ， 而 案例 研究 则 是 在 可 以 代表 典型 情况 的 变量 中 进行 选择 。 案 例 研 究 的 
优势 在 于 它 更 容易 设计 并 且 更 加 真实 ， 劣 势 则 体现 在 它 的 结果 难以 归纳 且 更 难 解释 。 
也 就 是 说 ， 要 说 明 一 个 典型 情况 下 的 某 个 结果 比较 容易 ， 但 想 要 把 它 推 广 到 其 他 情况 
还 需要 更 多 研究 [180] 。 

当 某 个 过 程 的 变化 会 造成 广泛 影响 时 ， 案 例 研究 是 一 种 合适 的 研究 方式 。 变 化 所 
带 来 的 影响 只 能 在 高 度 抽象 的 层次 上 进行 评估 ， 因 为 在 整个 开发 过 程 中 ， 这 个 变化 会 
包括 很 多 细小 而 具体 的 变化 [97] ， 并 且 该 变化 带 来 的 影响 无 法 立即 明确 。 例 如 ， 如 
果 我 们 想 要 了 解 一 种 新 的 设计 工具 是 否 能 够 提升 可 靠 性 ， 有 可 能 必须 要 等 开发 的 产品 
发 布 后 才能 评估 它 对 运行 失效 的 影响 。 

案例 研究 是 很 多 学 科 进 行经 验 研究 的 一 种 常规 方法 ， 如 社会 学 、 医 学 和 心理 学 。 
在 软件 工程 领域 ， 案 例 研究 不 仅 可 以 用 于 评估 某 个 现象 如 何 发 生 或 者 为 什么 发 生 ， 还 
可 以 用 来 评估 差异 性 ， 比 如 两 种 设计 方法 间 的 差异 。 换 言 之 就 是 评估 在 特定 情况 下 哪 
一 种 方法 更 加 合适 [180]。 例 如 ， 调 查 使 用 基于 视角 的 阅读 方法 是 否 能 够 提高 需求 规 
格 说 明 的 质量 就 是 软件 工程 领域 中 的 一 个 案例 研究 。 像 这 样 的 研究 并 不 能 像 测 试 一 样 
确定 基于 视角 的 阅读 减少 了 多 少 错误 ， 因 为 还 需要 一 个 不 使 用 基于 视角 技术 的 对 照 组 ， 
但 是 它 能 帮助 我 们 理解 该 机 制 在 审查 中 所 起 的 作用 。 


2. 3. 1 案例 研究 的 安排 


案例 研究 可 以 作为 一 种 比较 研究 的 策略 ， 用 来 比较 采用 某 种 方法 或 者 操作 形式 所 
产生 的 结果 和 采用 其 他 方法 所 产生 的 结果 。 为 了 避免 偏差 并 确保 内 部 有 效 性 ， 必 须 为 
评估 案例 研究 的 结果 建立 一 个 稳定 的 基准 。 为 此 ，Kitchenham 等 人 提出 了 三 种 安排 案 
例 的 方法 [97]: 
© 一 种 解决 办 法 是 把 使 用 新 方法 所 产生 的 结果 与 公司 基线 做 比较 。 公 司 应 从 其 常 
规 项 目 中 收集 数据 ， 并 计算 出 诸如 平均 生产 率 和 缺陷 率 等 特征 数据 。 这 样 才 可 
能 将 案例 研究 的 结果 和 公司 的 基线 数据 进行 比较 。 

。 可 以 选择 姊妹 项 目 作为 基线 。 被 研究 的 项 目 采 用 新 方法 ， 而 其 姊妹 项 目 使 用 
已 有 方法 。 两 个 项 目 应 具有 相同 的 特征 ， 也 就 是 说 ， 两 个 项 目 必须 是 可 比 
较 的 。 


[15 | 


12 -ZD F E 





。 如 果 某 个 方法 要 在 个 别 产 品 组 件 上 应 用 ,那么 它 也 应 该 可 以 被 随机 地 运用 到 某 
些 相关 组 件 上 。 这 一 点 与 实验 非常 相似 , 但 由 于 这 个 项 目 并 不 是 从 总 体 中 随机 
抽取 的 ， 所 以 它 并 不 是 实验 。 


2.3.2 混杂 因子 和 其 他 方面 


在 进行 案例 研究 时 ， 必 须 设法 最 小 化 混杂 因子 所 带 来 的 影响 。 混 杂 因 子 ( Con- 
founding Factor) 是 指 无 法 将 两 个 因素 带 来 的 影响 相互 区 分 开 的 一 个 因子 。 这 一 点 非常 
重要 ， 因 为 在 案例 研究 中 ,我 们 并 没有 实验 中 的 控制 手段 。 举 例 来 说 ,判别 一 个 较 好 
结果 的 产生 是 依赖 于 工具 还 是 工具 使 用 者 的 经 验 ， 可 能 会 十 分 困难 。 混 杂 效 应 ( Con- 
founding Effect) 可 能 会 在 我 们 学 习 如 何 使 用 某 个 方法 或 工具 以 评估 其 带 来 的 好 处 时 带 
来 问题 ， 或 是 在 决定 是 选择 有 激情 的 员工 还 是 有 怀疑 精神 的 员工 时 带 来 困扰 。 

案例 研究 本 身 也 是 有 利 有 弊 的 。 案 例 研 究 的 价值 在 于 它 包 含 很 多 实验 无 法 体现 的 
特质 ， 比 如 ， 规模、 复杂 度 、 不 可 预测 性 以 及 动态 性 。 而 案例 研究 也 存在 着 以 下 潜在 
问题 。 

。 一 个 小 型 或 者 简单 的 案例 研究 并 不 适合 发 掘 软件 工程 原理 和 技术 。 规 模 的 增长 

将 会 导致 最 具 参 考 价值 的 问题 类 型 发 生变 化 。 换 言 之 ， 尽 管 我 们 的 目的 是 研究 
同一 个 问题 ， 但 这 一 问题 在 小 型 案例 研究 和 大 型 案例 研究 中 可 能 变 得 不 同 。 比 
如 ， 在 小 型 案例 研究 中 ， 主 要 问题 可 能 就 是 要 研究 的 技术 ， 而 到 了 大 型 案例 研 
究 中 ， 主 要 问题 可 能 就 变 成 了 参与 人 数 以 及 随 之 而 来 的 人 员 沟 通 问题 。 

© 研究 人 员 并 不 完全 控制 案例 研究 情况 。 从 某 个 角度 来 看 ， 这 也 是 一 件 好 事 ， 因 

为 无 法 预测 的 变化 常常 可 以 让 研究 人 员 更 了 解 被 研究 的 问题 。 真 正 的 问题 在 于 
我 们 无 法 确定 混杂 因子 带 来 的 影响 。 
第 5 章 对 案例 研究 有 更 详尽 的 阐述 。 


2.4 实验 


当 希 望 控 制 某 种 情境 并 直接 、 精 确 和 系统 性 地 操控 其 行为 时 ， 实 验 是 一 种 较 好 的 
选择 。 实 验 往往 采用 多 种 处 置 ， 并 比较 其 结果 。 例 如 ， 如 果 可 以 控制 谁 在 使 用 这 个 方 
法 ， 谁 在 使 用 其 他 方法 ， 同 时 还 能 控制 使 用 方法 的 时 间 和 地 点 的 话 ， 就 可 以 完成 一 个 
实验 了 。 这 种 类 型 的 操作 可 用 于 离线 (off-line) 场景 ， 如 在 可 控 的 实验 室 里 模拟 真实 
世界 中 发 生 的 事件 。 实 验 也 可 以 选择 性 地 用 于 在 线 (on-line) 场景 ， 这 意味 着 调研 将 
在 真实 环境 中 执行 [6] 。 在 线 环 境 中 实施 控制 更 为 困难 ， 虽 然 很 多 因素 不 可 控 ， 但 仍 
然 有 一 些 因素 是 可 控 的 。 

实验 可 以 是 面向 人 的 (Human-Oriented) 和 面向 技术 的 (Technology-Oriented)。 在 
面向 人 的 实验 中 ， 人 们 在 对 象 上 实施 不 同 的 处 置 ， 例 如 对 两 段 代 码 采 用 不 同 的 代码 审 
查 方法 。 在 面向 技术 的 实验 中 ， 通 常 将 不 同 的 工具 用 于 相同 的 对 象 ， 例 如 对 于 相同 的 
程序 使 用 两 个 不 同 的 测试 用 例 生成 工具 。 面 向 人 的 实验 比 面向 技术 的 实验 更 不 易 控 制 ， 
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因为 人 们 在 不 同 的 场合 会 有 不 同 的 行为 ， 而 工具 〈 大 部 分 ) 是 确定 的 。 再 者 ， 考 虑 到 
学 习 效 果 ， 一 个 人 不 可 能 将 两 种 方法 等 效 地 用 到 同一 段 代 码 中 ， 而 两 个 工具 则 不 存在 
这 种 偏差 问题 。 

正如 前 面 所 提 及 的 ， 考 虑 上 下 文 环 境 更 易于 清楚 地 说 明 案 例 研 究 和 实验 方法 之 间 
的 区 别 。 所 谓 不 同 的 上 下 文 环境 9 可 以 是 不 同 的 应 用 领域 和 系统 类 型 [132] 。 在 实验 
中 ， 需 要 确定 感 兴趣 的 上 下 文 环 境 、 其 中 的 变量 和 覆盖 这 些 内 容 的 样本 。 这 意味 着 我 
们 需要 选择 能 代表 实验 机 构 多 种 典型 特征 的 对 象 ， 之 后 设计 实验 来 测量 每 个 特征 的 值 
(一 个 以 上 )。 例 如 ， 通 过 对 不 同 语言 编写 (也 可 能 是 从 一 个 编程 语言 转移 到 男 一 种 编 
程 语言 ) 的 两 个 不 同系 统 进行 测试 所 发 现 的 错误 ， 来 调查 一 个 审查 方法 的 效果 。 这 时 ， 
不 同 的 系统 就 是 评估 该 审查 方法 的 上 下 文 环 境 ， 当 然 实 验 中 还 需要 相似 的 对 象 ; 而 审 
查 方法 就 是 独立 变量 ， 不 同 程序 设计 语言 编写 的 程序 是 被 研究 对 象 。 

实验 的 设计 应 使 得 所 涉及 的 对 象 能 代表 我 们 感 兴趣 的 所 有 方法 。 并 且 ， 尽 可 能 考 
虑 将 当前 状况 作为 基线 (控制 ) ， 也 即 基线 代表 了 独立 变量 的 一 个 水 平 (或 者 值 ) ， 而 
新 情形 则 是 想 要 评估 的 另 一 水 平 。 这 时 ， 新 情形 下 独立 变量 的 水 平 描述 了 被 评估 情形 
与 控制 基线 的 差异 。 当 然 其 他 所 有 变量 的 取 值 应 保持 不 变 ， 如 应 用 领域 和 编程 环境 。 


2.4.1 特征 


实验 方法 适用 于 调查 不 同 的 内 容 [72，162] ， 包 括 : 

。 确认 理论 ， 即 检验 已 存在 的 理论 。 

© 确认 传统 观点 ， 即 检验 人 们 的 观念 。 

。 探索 关系 ， 即 检测 是 否 存在 某 种 关系 。 

o 评估 模型 的 准确 性 ， 即 检测 模型 的 准确 性 是 否 符合 预期 。 

。 验证 度量 方法 ， 即 确保 一 个 度量 方法 确实 度量 了 它 应 度量 的 东西 。 

实验 的 优势 在 于 ， 它 可 以 调查 在 哪些 情形 下 论断 是 正确 的 ， 也 可 以 提供 一 个 上 下 
文 环境 ， 推 荐 使 用 其 中 的 某 些 标 准 、 方 法 和 工具 。 


2.4.2 实验 过 程 


实施 一 个 实验 涉及 几 个 不 同 的 步 又 。 这 些 步 又 如 下 。 

(1) 确定 范围 ; 

(2) 制定 计划 ; 

(3) 操作 ; 

(4) 分 析 和 解释 ; 

(5) 归档 与 展示 。 

这 些 实验 过 程 将 在 第 6 章 介 绍 ， 而 其 中 的 每 一 个 步骤 将 在 第 7 ~ 11 章 中 详细 讨论 。 





日 ”也 译 为 “情境 "。 一 一 译 者 注 
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2.5 经 验 策略 比较 
调研 的 前 提 条 件 限制 了 研究 策略 的 选择 。 对 策略 的 比较 可 以 基于 很 多 不 同 的 因素 
进行 。Pfleeger 提出 了 一 些 比较 因素 [133] ， 本 书 补充 后 如 表 2-2 所 示 。 下 面 将 逐一 
阐述 。 
表 2-2 研究 策略 因素 








因 素 调 查 案例 研究 实 验 
执行 控制 无 无 有 
度量 控制 无 有 有 
调研 成 本 低 中 高 
重 现 难 易 度 易 ME 易 


执行 控制 (Execution Control) 描述 了 研究 者 对 整个 研究 的 控制 程度 。 例 如 ， 在 案 
例 研究 中 ， 数 据 收集 必须 在 项 目 执行 中 进行 。 如 果 项 目 经 理 因 为 经 济 等 原因 决定 终止 
被 研究 项 目 ， 研 究 者 则 无 法 继续 完成 该 案例 研究 。 而 实验 研究 则 相反 ， 研 究 者 控制 实 
验 的 执行 。 

度量 控制 ( Measurement Control) 是 指 研究 过 程 中 ， 研 究 者 能 在 多 大 程度 上 决定 可 
以 收集 哪些 度量 内 容 、 包 括 或 者 排除 哪些 度量 。 例 如 如 何 收集 需求 易 变 性 数据 。 一 些 
在 调查 法 中 无 法 做 到 的 度量 控制 ， 在 案例 研究 或 者 实验 中 却 是 可 能 的 。 因 为 在 调查 法 
中 ， 只 能 搜集 到 相关 人 员 对 需求 易 变性 的 看 法 。 

与 上 述 因素 紧密 相关 的 是 调研 成 本 。 选 择 不 同 的 策略 ， 成 本 是 不 一 样 的 。 这 和 研 
究 的 规模 、 所 需 的 资源 等 因素 有 关 。 成 本 最 低 的 策略 就 是 调查 法 ， 因 为 它 并 不 需要 大 
量 的 资源 。 案 例 研究 和 实验 的 区 别 在 于 ， 案 例 研究 中 ， 如 果 研 究 的 对 象 是 一 个 项 目 ， 
则 该 项 目的 输出 可 能 是 某 种 可 以 投入 销售 的 产品 ， 即 这 是 一 种 在 线 调研 。 而 在 离线 实 
验 中 ， 其 输出 是 某 种 形式 的 经 验 或 知识 ， 不 可 能 像 产 品 那样 可 以 直接 盘 利 。 

另 一 个 需要 考虑 的 重要 方面 就 是 重 现 该 研究 的 可 能 性 。 重 现 的 目的 是 为 了 验证 原 
研究 中 的 结论 在 更 大 的 总 体 中 仍 有 效 。 当 设计 和 结果 都 能 被 重 现时 ， 该 重 现 就 称 为 
“ 真 ” 重 现 。 通 常 来 说 ， 重 现 调研 的 结论 不 会 与 原 调研 结果 差别 太 大 。 

从 研究 的 时 间 维 度 看 ， 与 重 现 有 关 的 是 纵向 研究 (Longitudinal Study) [141] 。 两 
者 之 间 的 主要 差异 在 于 ， 纵 向 研究 主要 是 采用 同样 的 主体 ， 而 重 现 研究 多 数 都 是 针对 
新 主体 。 换 名 话说， 重 现 意味 着 多 个 调研 ， 而 纵向 研究 则 是 一 个 调研 。 纵 向 研究 往往 
会 持续 一 段 时 间 。 例 如 ， 一 个 调查 法 可 以 在 多 个 场合 进行 ; 实验 能 够 重复 进行 ; 案例 
研究 如 果 持 续 一 段 时 间 ， 也 可 以 看 成 是 纵向 的 。 纵 向 研究 通常 是 为 了 理解 、 描 述 或 者 
评估 某 些 随时 间 变 化 的 事情 [144]. 

经 验 策略 的 选择 取决 于 调研 的 前 提 条 件 、 调 研 的 目的 、 可 用 的 资源 和 采用 的 数据 
分 析 方 法 。Easterbrook 等 人 在 [50] 中 给 出 了 更 多 的 策略 选择 建议 。 其 实 ， 不 同 研究 
类 型 之 间 的 界线 并 不 总 是 那么 清晰 。 例 如 ， 比 较 型 案例 研究 也 可 以 看 作 是 工业 环境 下 





的 准 实验 ; 软件 工程 课程 结果 的 事后 观察 性 研究 也 可 以 看 作 是 学 生 实验 。 


2.6 BH 


实验 的 重 现 (Replication) 是 指 在 相似 条 件 下 重复 实验 过 程 ， 例 如 只 改变 实验 主 
体 。 该 方法 有 助 于 研究 人 员 确 定 实验 结果 的 置信 度 。 如 果 随 机 性 假设 是 正确 的 ， 也 就 
是 说 实验 主体 是 总 体 的 典型 性 代表 ， 那 么 在 该 总 体内 重复 实验 应 该 得 到 与 之 前 实验 相 
同 的 结果 。 如 果 无 法 得 到 相同 的 结果 ， 说 明 在 实验 设计 中 没 能 考虑 所 有 会 影响 结果 的 
因素 。 即 便 能 度量 某 个 变量 或 重复 实验 ， 也 可 能 很 困难 或 成 本 很 高 。 

重 现 有 多 种 类 型 [89, 155]; 

© 准确 重 现 (Close Replication); 尽 可 能 准确 地 遵循 原 实 验 规 程 ， 该 类 型 有 时 也 

称 为 精确 重 现 (Exact Replication) [155], 
e 差异 重 现 (Differentiated Replication) : 指使 用 不 同 的 实验 规程 来 研究 相同 的 研 
究 问题 ， 在 实验 中 研究 人 员 会 有 意 地 改变 一 个 或 多 个 主要 条 件 。 

Basili 等 人 [20] 提出 了 一 个 更 细 粒 度 的 分 类 : 

e 严格 重 现 (Strict Replications) (与 准确 和 精确 重 现 同 义 ) ; 

。 变更 研究 中 变量 的 实验 重 现 ; 

。 变更 研究 关注 点 中 变量 的 实验 重 现 ; 

。 变更 实验 环境 中 的 上 下 文 变量 的 实验 重 现 ; 

。 变更 实验 运行 方式 的 实验 重 现 ; 

。 扩展 理论 的 实验 重 现 。 

其 他 研究 领域 也 使 用 了 许多 不 同 的 分 类 标准 [64] ， 且 这 些 研 究 领域 间 不 存在 标 
准 化 术语 。 同 样 ， 在 软件 工程 领域 也 没 形成 标准 术语 。 上 文中 给 出 准确 和 差异 重 现 划 
分 是 对 软件 工程 领域 中 实验 重 现 的 首次 分 类 。 

准确 重 现 的 优点 是 已 知 因素 保持 受 控 状 态 ， 从 而 可 以 保证 输出 结果 的 置信 度 。 然 
而 ， 有 些 准确 重 现 需要 相同 的 研究 人 员 来 进行 ， 因 为 实验 规程 中 的 一 些 隐 性 知识 很 难 
被 记录 并 文档 化 [153, 154]。 另 一 方面 ， 准 确 重 现 中 实验 者 的 主观 偏见 也 是 一 个 潜在 
风险 [95]。 此 外 ， 有 人 质疑 在 软件 工程 研究 领域 是 否 存在 真正 的 准确 重 现 ， 因 为 在 
软件 工程 复杂 的 实验 配置 中 ， 很 多 因素 都 可 能 发 生变 化 [89] 。 

男 一 方面 ， 差 异 重 现 更 多 地 在 探索 型 研究 中 使 用 。 如 果 能 很 好 地 记录 和 分 析 各 因 
素 和 实现 设置 的 差异 ， 那 么 就 可 以 通过 重复 研究 获取 更 多 的 知识 。 在 差异 重 现 中 要 考 
虑 和 记录 的 因素 包括 : 

© 执行 实验 的 地 点 ; 

© 执行 实验 的 实验 者 ; 

。 实验 的 设计 方案 ; 

。 实验 工具 ， 即 表 或 其 他 材料 ; 

。 被 度量 的 交 量 ; 
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。 执行 实验 的 主体 。 
第 8 章 将 详细 讨论 这 些 因素 。 争 议 的 出 现 是 针对 重 现 最 初 的 假设 ， 而 不 是 针对 特 
定 的 实验 设计 [123] ， 也 就 是 说 相对 于 准确 重 现 ， 更 支持 差异 重 现 。 


2.7 软件 工程 理论 


“理论 给 出 对 基本 概念 和 基本 原理 的 解释 与 理解 ， 它 是 关于 事物 发 展 趋势 和 现象 的 
知识 。”[72] 如 前 所 述 ， 实 验 可 以 形成 、 确 认 和 拓展 理论 。 然 而 ，Hannay 等 人 在 回顾 
1993 ~ 2002 年 软件 工程 实验 的 系统 文献 综述 (72) 中 指出 ， 在 软件 工程 中 ， 极 少 使 用 
理论 。 该 综述 共 考 察 了 113 篇 文献 ， 在 其 中 的 23 篇 中 发 现 了 40 条 理论 ， 其 中 仅 有 两 
条 理论 被 一 篇 以 上 的 文章 使 用 。 

Endres 和 Rombach [53] 提出 了 软件 工程 中 的 50 条 “定律 ” 。 所 谓 定律 是 指 用 来 
描述 自然 科学 环境 中 可 重复 现象 的 概念 ， 他 们 将 这 一 概念 应 用 到 软件 工程 中 。 其 中 给 
出 的 许多 “定律 ”已 超越 了 软件 工程 范畴 ， 如 ，“ 从 初学 者 成 为 专家 需要 5000 个 小 
时 ”。 他 们 认为 ,“ 理 论 ” 解 释 “ 定 律 ”, “假设 ”是 对 观察 到 的 现象 给 出 的 一 个 试探 
性 解释 ， 而 “猜想 ” 则 是 对 现象 的 一 种 猜测 。Endres 和 Rombach 列 出 了 出 现在 软件 工 
程 文献 中 的 25 个 假设 和 12 个 猜想 。 

Zendler [182] 采用 另 一 种 方法 ， 定 义 了 一 个 “初步 的 软件 工程 理论 "， 由 3 个 根 
本 假设 、6 个 核心 假设 和 4 个 基本 假设 组 成 。 这 些 假设 是 分 层次 的 ， 根 本 假设 最 抽象 ， 
基本 假设 最 具体 ， 直 接 来 源 于 实验 研究 的 成 果 。 

Gregor [70] 介绍 了 5 类 通用 理论 ， 这 些 理论 可 能 适用 于 软件 工程 领域 [72]: 

(1) DH: 这 类 理论 描述 研究 对 象 ， 如 分 类 学 、 分 类 法 以 及 本 体 论 等 。 

(2) 解释 : 这 类 理论 着 重 于 解释 事物 ， 比 如 ， 为 什么 发 生 了 某 件 事 。 

(3) 预测 : 这 类 理论 旨 在 预测 将 会 发 生 什么 ,例如 使 用 数学 或 概率 模型 。 

(4) 解释 及 预测 : 这 类 理论 结合 第 2 类 和 第 3 类 理论 ， 通常 被 称 为 “基于 经 验 的 
理论 ”。 

(5) 设计 和 行动 : 这 类 理论 描述 如 何 做 事 ， 通常 应 用 于 设计 学 科 [76]。 但 是 否 
属于 一 类 理论 尚 存 在 争议 。 

Sjoberg 等 人 [162] 提出 了 一 个 软件 工程 理论 框架 ， 由 以 下 四 个 主要 部 分 组 成 : 

o 结构 ; 

。 命题 ; 

。 解释 ; 

。 作用 域 。 

结构 是 描述 理论 的 实体 ， 理 论 根据 前 面 的 分 类 对 其 进行 描述 、 解 释 或 者 预测 ， 命 题 
由 结构 之 间 的 关系 组 成 。 解 释 是 对 命题 ( 即 结构 之 间 的 关系 ) 的 逻辑 推理 或 经 验 观察 。 

理论 的 作用 域 定义 了 理论 可 用 的 范围 。Sjgberg 等 人 [162] 提出 了 四 个 原型 类 来 
描述 作用 域 ， 即 参与 者 、 技 术 、 活 动 和 软件 系统 ， 如 表 2-3 所 示 。 





% 2-3 Sjoberg 等 提出 的 软件 工程 理论 框架 





原 型 类 子 类 
参与 者 个 人 、 团 队 、 项 目 、 组 织 或 者 行业 
技术 过 程 模型 、 方 法 、 技 术 、 工 具 或 语言 
活动 设计 、 创 建 、 修 改 或 分 析 (一 个 软件 系统 ) 


软件 系统 可 以 从 多 个 维度 进行 分 类 ， 如 : 大 小 、 复 杂 性 、 应 用 领域 、 


ii 商务 /科研 /学 生 项 目 ， 或 者 行政 管理 /嵌入 式 /实时 系统 ， 等 等 


尽管 从 理论 观点 来 考虑 是 有 吸引 力 的 ,但 是 这 些 理论 系统 在 软件 工程 领域 至 今 还 
未 形成 任何 影响 力 。 理 论 对 于 研究 领域 中 知识 的 概念 化 以 及 交流 是 很 重要 的 ， 对 于 聚 
合 已 有 研究 和 建立 重 现 研究 也 很 有 用 。 无 论 是 技术 的 策略 选择 ， 还 是 基于 预测 模型 的 
项 目 决策 ， 做 决策 时 都 可 以 用 理论 来 和 从 业者 进行 交流 。 因 此 ， 为 了 尽早 成 为 一 个 成 
熟 的 科学 领域 ， 应 该 鼓励 软件 工程 中 的 理论 构建 。 


2.8 经 验 研究 的 证 据 汇聚 


随 着 经 验 研究 数量 的 增长 ， 需 要 汇聚 多 个 经 验 研 究 取得 的 证 据 ， 比 如 ， 重 现 研究 。 
首先 ， 研究 应 该 建立 在 彼此 的 基础 上 ， 新 的 研究 应 该 考虑 将 现 有 知识 作为 起 点 。 其 次 ， 
有 些 问 题 需 要 多 个 经 验 研 究 共 同 给 出 答案 ,任何 独立 的 研究 都 不 足以 单独 回答 这 些 问 
题 。 经 验证 据 的 收集 和 综合 本 身 也 必须 符合 科学 标准 。 

系统 文献 综述 (Systematic Literature Review) 是 收集 和 综合 不 同 来 源 的 经 验证 据 的 
重要 手段 。Kitchenham 和 Charter 将 系统 文献 综述 定义 为 :“ 它 采用 一 套 良 定义 的 方法 ， 
以 一 种 无 偏见 的 、( 一 定 程度 上 的 ) 可 重复 的 方式 去 识别 、 分 析 和 解释 所 有 与 被 研究 
问题 相关 的 证 据 的 一 种 二 次 研究 形式 ” [96]。 被 检索 到 的 经 验 研究 称 为 原始 研究 
(Primary study) ， 系 统 文献 综述 被 称 为 二 次 研究 (secondary study ) Kitchenham 和 
Charter 为 该 类 综述 的 开展 给 出 了 指南 ， 详 见 第 4 章 。 

和 其 他 经 验 研 究 类 似 ， 每 个 系统 文献 综述 也 有 一 个 特定 的 研究 问题 。 其 研究 问题 
与 所 综述 的 经 验 研 究 的 结果 相关 ， 通常 都 是 这 种 形式 : “A 技术 /方法 是 否 比 B 更 好 
(或 更 差 )”[106] 。 

经 验 研究 的 搜索 通常 采用 基于 关键 字 的 数据 库 查 询 、 期 刊 / 会 议 文集 /灰色 文献 
(如 技术 报告 ) 检索 等 方式 [96 ] 。“ 滚 雪 球 (Snowballing) ”过 程 是 指 通过 一 篇 论文 的 
参考 文献 去 找到 其 他 的 相关 论文 ， 反 之 亦 然 [145 ] 。 注 意 滚雪球 既 可 以 是 后 向 的 也 可 
以 是 前 向 的 。 后 向 就 是 查询 该 论文 的 参考 文献 ， 而 前 向 就 是 寻找 哪些 相关 的 论文 引用 
了 该 篇 论文 。 

如 果 研 究 问题 是 很 通用 的 问题 ， 或 者 对 于 该 领域 的 研究 成 果 较 少 ， 可 以 采用 映射 
研究 (Mapping Study) 的 方法 (也 称 为 概览 研究 ，Scoping study)。 映 射 研究 针对 更 宽 
泛 的 研究 问题 ， 目 的 是 识别 某 个 主题 的 实践 或 研究 现状 ,尤其 是 识别 研究 趋势 
[106] 。 由 于 涉及 范围 较 广 ， 搜 索 和 分 类 规程 没 那么 严格 ， 有 更 多 定性 的 特征 。 
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系统 文献 综述 和 映射 研究 对 于 检索 到 的 研究 是 否 应 该 纳 人 其 中 都 必须 有 明确 的 判 
别 准则 和 分 类 标准 。 对 于 系统 文献 综述 而 言 ， 一 个 自然 的 标准 就 是 研究 应 该 是 经 验 研 
究 ， 而 映射 研究 也 可 以 包括 非 经 验 研 究 。 

当 针对 一 个 主题 的 经 验 研究 被 收集 起 来 后 ， 就 可 以 进行 综合 或 聚合 了 。 基 于 统计 
方法 的 综合 称 为 元 分 析 (Meta-analysis) 。 软 件 工程 中 元 分 析 的 例子 有 缺陷 检测 方法 
[74，121] 、 敏 捷 方 法 [46] 和 结对 编程 [73] 。 

如 果 不 能 用 元 分 析 法 ， 则 可 以 使 用 描述 性 综合 法 ， 包 括 数据 的 可 视 化 、 数 据 表格 
和 数据 的 描述 性 统计 [96 ] 。 文 献 综 述 研 究 的 问题 越 宽 泛 ， 其 证 据 综合 就 需要 越 多 的 
定性 方法 。Cruzes 和 Dyba 发 表 过 一 篇 有 关 定 性 综合 方法 的 综述 论文 [39] 。 

软件 工程 领域 的 系统 文献 综述 在 21 世纪 的 头 10 年 有 了 实质 性 增长 。Kitchenham 
等 称 在 2004 ~ 2008 年 期 间 发 表 了 53 篇 不 同 的 系统 文献 综述 [103，104] 。 这 些 综述 除 
了 进行 经 验 发 现 的 综合 之 外 ， 也 对 经 验 研究 的 报告 方法 以 及 存储 经 验 研 究 的 数据 库 给 
出 了 改进 建议 。 

第 4 章 将 对 系统 文献 综述 进行 更 深入 的 阐述 。 


2.9 软件 工程 领域 的 经 验 主义 


为 什么 要 在 软件 工程 领域 开展 实验 和 其 他 经 验 研 究 呢 ? 主要 原因 是 采用 定量 的 经 
验 研究 方法 可 以 为 软件 开发 的 理解 、 控 制 、 预 测 和 改善 提供 客观 且 具 有 统计 学 意义 的 
结果 。 对 于 寻求 改进 的 组 织 而 言 ， 经 验 研究 是 其 做 决策 时 的 重要 依据 。 

在 引入 一 种 新 技术 、 新 方法 或 其 他 工作 方式 之 前 ， 最 好 针对 这 个 改进 的 优点 做 一 
次 经 验 评 估 。 本 节 将 介绍 一 个 评估 软件 过 程 变 化 的 框架 ， 针 对 桌面 、 实 验 室 和 开发 项 
目 三 种 情境 推荐 不 同 的 经 验 策略 。 

要 成 功 地 完成 软件 开发 ， 有 一 些 基 本 的 要 求 [7, 8, 42]: 

(1) 理解 软件 过 程 和 产品 ; 

(2) 定义 过 程 和 产品 质量 ; 

(3) 评估 成 功 和 失败 ; 

(4) 为 项 目 控制 提供 反馈 信息 ; 

(5) 从 经 验 中 学 习 ; 

(6) 整理 并 重用 相关 经 验 。 

无 论 是 对 工业 界 的 、 学 术 界 的 软件 工程 研究 ， 还 是 寻求 持续 改进 的 学 习 型 组 织 饼 
软件 工程 研究 ， 经 验 研究 都 是 达到 以 上 要 求 的 重要 方法 。Basili 在 提出 质量 改进 范式 
(Quality Improvement Paradigm) [7] 时 同时 提出 的 经 验 工 厂 (Experience Factory) 就 
是 学 习 型 组 织 的 一 个 范例 ， 在 本 节 的 后 续 部 分 将 进一步 描述 。 该 方法 也 包括 一 个 通过 
度量 来 定义 和 评估 一 组 操作 目标 的 机 制 ， 即 所 谓 的 目标 /问题 /度量 标准 GQM ( Goal/ 
Question/Metric) 方法 [17] ， 下 文中 将 详细 介绍 。 关 于 GQM 方法 更 详细 的 介绍 参见 
van Solingen 和 Berghout [172], 
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2.9.1 过 程 变化 的 经 验 评估 


一 个 寻求 改进 的 机 构 在 引入 过 程 变更 〈 如 ， 新 的 方法 或 工具 ) 以 改进 其 工作 方式 
之 前 ， 通 常 希 望 对 其 影响 进行 评估 。 经 验 研 究 是 获得 变更 影响 的 客观 和 量化 信息 的 重 
要 方法 。 在 2.2 ~2.4 节 中 , 我们 介绍 了 三 种 经 验 策略 : 调查 法 、 案 例 研 究 和 实验 ， 
2.5 节 中 对 这 三 种 策略 进行 了 比较 。 本 节 介 绍 在 软件 过 程 变更 评估 中 如 何 使 用 这 些 策 
略 [177] ， 意 在 得 到 一 种 恰当 的 方法 来 处 理 从 研究 到 工业 应 用 的 技术 转移 。 技 术 转 移 
和 使 用 经 验 策略 有 关 的 技术 转移 步骤 将 在 2. 10 节 中 讨论 。 

图 2-1 将 各 种 策略 放置 于 相应 的 研究 环境 中 。 该 策略 排序 基于 “常规 ”的 研究 
规模 。 目 的 是 通过 对 各 研究 中 最 常见 的 实施 序列 进行 讨论 ， 使 研究 结果 能 可 控 地 付 
诸 实践 。 调 查 法 不 会 在 很 大 程度 上 干预 软件 开发 ， 因 此 风险 较 低 。 实 验 与 实际 项 目 
相 比 通常 规模 有 限 ， 而 案例 研究 往往 针对 特定 的 项 目 。 此 外 ， 在 进行 工业 案例 研究 
之 前 ， 往 往 会 在 大 学 实验 室 进行 实验 以 降低 成 本 和 风险 ， 详 见 Linkman 和 Rombach 
的 文章 [113], 





大 规模 


实际 项 目 
案例 研究 


高 风险 





低 风 险 


小 规模 
图 2-1 调查 法 、 实 验 和 案例 研究 


有 如 下 三 类 研究 环境 。 
© 桌面 : 在 未 执行 被 变更 过 程 的 情况 下 对 变更 方案 进行 离线 评估 。 因 此 ， 该 类 评 
佑 不 牵涉 使 用 方法 和 工具 等 的 人 员 。 在 桌面 环境 ， 适 宜 采 用 调查 法 ， 如 基于 访 
谈 的 评估 和 文献 调研 等 。 
实验 室 : 在 离线 的 实验 环境 中 (in vitro) ， 对 变更 方案 进行 离线 评估 。 在 该 
环境 配置 下 进行 实验 ， 且 部 分 过 程 在 受 控 方式 下 执行 。 
实际 项 目 : 在 真实 的 开发 场景 中 评估 变更 方案 ， 即 在 在 线 的 真实 环境 (in vi- 
vo) 呈 进行 观测 ， 如 试点 项 目 等 。 在 该 环境 下 进行 受 控 实验 成 本 太 高 ， 通 常 采 
用 案例 研究 更 为 恰当 。 

图 2-1 中 ， 各 研究 环境 按照 项 目 规模 和 风险 递增 的 顺序 排列 。 例 如 ， 如 果 希 望 在 
真实 环境 中 的 一 个 大 规模 设计 项 目 时 尝试 使 用 新 设计 方法 ， 可 以 考虑 先 将 该 方法 应 用 





© 拉丁 语 “in the glass”， 意 指 测试 管 中 的 化 学 实验 。 
© 拉丁 语 “in life"， 意 指 真 实 环境 中 的 实验 。 
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在 一 个 作为 试点 研究 的 开发 项 目 中 。 当 然 ， 这 样 做 相对 于 桌面 试验 和 实验 室 环境 而 言 
风险 更 大 ， 因 为 如 果 过 程 变更 失败 ， 将 危及 交付 产品 的 质量 。 案 例 研究 和 实验 的 成 本 
通常 高 于 桌面 评估 ， 因 为 桌面 研究 并 不 涉及 开发 过 程 的 执行 。 需 要 指出 的 是 ， 这 里 提 
到 的 成 本 是 针对 对 同一 件 事情 的 调研 而 言 的 。 例 如 ， 首 先 通过 访谈 的 方法 获得 对 新 方 
法 的 预期 影响 很 可 能 比 做 一 个 控制 实验 的 成 本 要 低 ; 相应 地 ， 实 验 又 比 冒 着 采用 新 技 
术 的 风险 在 实际 项 目 中 采用 新 方法 的 成 本 要 低 。 

在 实际 开发 项 目 中 开展 案例 研究 之 前 ， 为 了 降低 风险 ， 需 要 在 桌面 或 实验 室 环境 
中 进行 有 限 的 前 期 研究 。 然 而 ， 对 每 一 个 变更 方案 在 研究 的 顺序 和 成 本 方面 ， 没 有 统 
一 的 结论 ， 需 要 根据 具体 情况 来 评估 哪 种 经 验 策略 更 高 效 ， 关 键 在 于 基于 成 本 和 风险 
选择 最 佳 策略 。 在 大 多 数 情况 下 ,我们 建议 研究 从 小 规模 开始 ， 然 后 随 着 知识 的 积累 、 
风险 的 降低 ， 再 增 大 研究 规模 。 

除了 考虑 如 何 选择 研究 策略 之 外 ， 还 需要 关于 如 何 进行 过 程 改进 、 如 何 搜集 数据 
并 存储 信息 等 方法 学 的 支持 。 这 个 问题 将 在 下 文 逐 一 讨论 。 


2.9.2 质量 改进 范式 


质量 改进 范式 (QP) [7] 是 一 个 专门 为 软件 企业 定制 的 改进 方法 。 它 类 似 于 计 
划 / 执 行 /学 习 / 处 理 循环 PDST (Plan/Do/Study/Act) [23，42] ， 包 括 如 图 2-2 所 示 的 
ATER. 





图 2-2 质量 改进 模型 的 六 个 步骤 [7] 


这 些 步骤 的 含义 如 下 [16]。 

(1) 特征 描述 。 基 于 可 获取 的 模型 、 数 据 和 直觉 等 理解 环境 。 使 用 组 织 当 前 的 业 
务 过 程 建立 基线 并 描述 其 关键 特征 ; 

(2) 设 定 目标 。 根 据 初 始 特征 描述 和 企业 战略 需求 ， 设 定 可 量化 的 项 目 成 功 目 
标 、 组 织 绩效 和 改进 程度 。 应 基于 特性 描述 阶段 建立 的 基线 定义 合理 的 期 望 目标 。 

(3) 选择 过 程 。 根 据 环境 的 特征 和 设 定 的 目标 ， 选 择 合适 的 改进 过 程 、 支 持 方法 
和 工具 ， 确 保 它 们 和 设 定 的 目标 一 致 。 

(4) 执行 。 完 成 产品 开发 ， 并 收集 关于 目标 达成 的 数据 进行 项 目 反馈 。 

(5) 分 析 。 在 每 个 项 目 结束 时 ,分 析 收 集 的 数据 和 信息 来 评估 当前 实践 、 确 定 问 
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题 、 记 录 发 现 ， 为 将 来 的 项 目 提 出 改进 建议 。 
(6) 打包 。 将 此 次 改进 中 新 获得 或 更 新 的 或 精 化 后 的 经 验 、 模 型 以 及 其 他 形式 的 
结构 化 知识 和 以 前 项 目 中 获得 的 进行 整合 。 
QP 中 包括 两 个 反馈 环 [16], ， 如 图 2-2 所 示 。 
e 项 目 反馈 环 〈 控 制 环 ，Control Cycle) 是 指 在 执行 阶段 向 项 目 提交 的 反馈 。 无 
论 组 织 的 目标 是 什么 ， 作 为 试点 的 项 目 都 应 该 尽 可 能 采用 最 佳 的 方式 使 用 资 
源 ， 因 此 建立 项 目 和 任务 一 级 的 定量 指标 是 有 利于 预防 和 解决 问题 的 。 
© 企业 反馈 环 〈 资 本 环 ，Capitalization Cycle) 指 需 要 提交 给 组 织 的 反馈 环 。 它 有 
两 个 目的 ， 其 一 是 在 项 目 结束 时 将 项 目 数据 与 该 组 织 的 常规 情况 进行 比较 ， 提 
供 关 于 该 项 目 绩效 的 分 析 数 据 ; 其 二 是 分 析 其 一 致 性 和 差异 性 。 该 反馈 有 利于 
积累 可 重用 经 验 ， 以 便 在 其 他 项 目 中 使 用 。 


2.9.3 经 验 工厂 


建立 QIP 的 基础 是 : 软件 开发 的 改进 需要 持续 学 习 。 经 验 可 以 打包 到 经 验 模型 中 ， 
以 便于 有 效 地 理解 和 修改 。 这 些 经 验 模型 存储 在 一 个 库 中 ， 称 为 经 验 库 (Experience 
Base) 。 正 在 执行 的 项 目 可 以 访问 、 修 改 和 重用 这 些 模型 。 

QP 强调 将 项 目 开 发 〈 由 项 目 组 织 进行 ) 与 可 重用 经 验 的 系统 学 习 和 打包 (由 
经 验 工厂 执行 ) 进行 逻辑 分 离 [8] 。 经 验 工 厂 是 通过 分 析 和 综合 各 类 经 验 来 对 产品 
开发 提供 支持 的 独立 组 织 ， 作 为 这 些 经 验 的 仓库 ， 在 需要 时 为 各 种 项 目 提供 经 验 ， 
见 图 2-3。 





图 2-3 经 验 工厂 


经 验 工厂 以 “通过 人 、 文 档 以 及 自动 化 支持 手段 来 构建 不 同 过 程 、 产 品 和 其 他 形 
式 知识 的 非 形式 化 、 形 式 化 或 系统 化 的 模型 和 度量 ”来 包装 经 验 [16]。 

项 目 组 织 的 目标 是 生成 和 维护 软件 。 项 目 组 织 为 经 验 工厂 提供 项 目 和 环境 特征 描 
述 、 开 发 数据 、 资 源 使 用 信息 、 质 量 记录 和 过 程 信息 。 它 还 提供 由 经 验 工厂 提供 并 在 
该 项 目 中 使 用 的 模型 的 实际 效果 的 反馈 信息 。 

经 验 工厂 处 理 来 自 开 发 组 织 的 信息 ， 并 将 反馈 信息 ， 连 同 从 类 似 项 目 剪裁 得 到 的 
目标 和 模型 一 起 直接 返回 给 每 个 项 目 。 它 还 为 特定 的 项 目 提供 基线 、 工 具 、 经 验 教 训 
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和 数据 。 

为 了 改进 ， 软 件 开发 组 织 需要 引入 新 技术 。 为 此 ， 需 要 做 实验 并 记录 开发 项 目 取 
得 的 经 验 ， 从 而 最 终 改 变 当 前 的 开发 过 程 。 当 新 技术 与 当前 实践 有 本 质 性 不 同时 ， 为 
降低 风险 可 以 采用 离线 评估 。 如 上 所 述 ， 变 更 评估 可 以 采用 控制 实验 (小 规模 的 精细 
评估 ) 或 案例 研究 (研究 尺度 效应 ) 方法 。 对 这 两 种 情况 ， 下 文 描述 的 目标 /问题 / 度 
量 方 法 提供 了 一 个 十 分 有 用 的 框架 。 


2.9.4 目标 /问题 /度量 方法 


目标 /问题 /度量 方法 (GQM 方法 ) [17, 26, 172] 基于 以 下 假设 : 如 果 组 织 
望 有 目的 地 进行 度量 ， 必 须 遵 循 以 下 几 点 。 

(1) 为 组 织 及 其 项 目 设 定 目标 ; 

(2) 将 目标 分 解 到 数据 ， 这 些 数 据 能 够 可 操作 地 定义 目标 ; 

(3) 提供 一 个 框架 ， 解 释 这 些 指 征 目标 的 数据 。 

应 用 GQM 方法 所 得 的 结果 是 ， 针 对 一 组 特定 问题 的 度量 模型 和 一 组 解释 度量 数据 
的 规则 。 

由 此 产生 的 度量 模型 有 三 个 层次 ， 层 次 结构 如 图 2-4 所 示 。 














概念 级 A ECS | 


图 2-4 GQM 模型 层次 结构 图 


(1) 概念 级 〈 目 标 ) 。 为 一 个 对 象 定 义 目 标 有 着 不 同 的 原因 ， 同 时 还 要 考虑 不 同 
的 质量 模型 、 不 同 的 视角 以 及 涉及 的 特定 环境 。 度 量 对 象 是 产品 、 过 程 和 资源 (也 见 
第 3 章 )。 

(2) 操作 级 (问题 )。 一 组 问题 ， 用 来 描述 如 何 基 于 一 定 的 特征 模型 来 评价 某 特 
定 目 标的 达成 度 。 问 题 描述 度量 对 象 ( 产 品 、 过 程 和 资源 ) 的 质量 方面 ， 并 从 所 选 定 
的 视角 确定 其 质量 。 

(3) 定量 级 (度量 )。 与 以 上 各 问题 相 联 系 的 一 组 数据 ， 从 而 定量 地 回答 这 些 问 
题 (无 论 是 客观 还 是 主观 ) 。 

设 定 目标 的 过 程 是 成 功 应 用 GOM 方法 的 关键 。 制 定 目 标 一 般 基于 以 下 三 方面 : 
织 的 政策 和 战略 ， 过 程 和 产品 的 描述 ， 组 织 模型 。 当 目标 被 明确 描述 后 ， 就 全 
些 目 标 得 到 问题 。 一 旦 问题 形成 ， 就 可 以 将 这 些 问 题 与 适当 的 度量 标准 关联 起 来 。 





Briand 等 [26], van Solingen 和 Berghout [172] 提出 了 将 GQM 方法 应 用 于 基于 度 
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量 的 过 程 改 进 的 实用 指导 。 第 3 章 将 进一步 对 度量 进行 详细 阐述 。 


2.10 ”基于 经 验 的 技术 转移 


经 验 研究 不 仅 具 有 自身 的 价值 ， 也 是 促进 学 术 界 和 工业 界 进行 知识 交流 与 改进 的 
最 大 推动 力 ， 例 如 上 文 讨论 过 的 技术 转移 。 软 件 工程 属于 应 用 研究 领域 ,因此 希望 研 
究 工 业 有 关 问 题 。 在 很 多 情况 下 ， 仅 做 学 术 研 究 是 不 够 的 ， 尤 其 是 针对 在 工业 界 充 满 
挑战 性 的 领域 ， 如 需求 工程 、 软 件 测试 等 。 软 件 工程 研究 最 好 由 学 术 界 和 工业 界 联合 
进行 ， 以 促进 知识 的 双向 转移 ， 并 最 终 实现 新 方法 、 新 技术 和 工具 从 学 术 界 到 工业 界 
的 转移 。 联 合 研 究 提 供 了 极 好 的 机 会 ， 通 过 基于 具体 证 据 的 研究 来 改善 工业 软件 开发 ， 
因此 是 基于 证 据 软 件 工程 [48, 100] 的 一 个 极 佳 案例 。 

Gorschek 等 人 基于 长 期 的 合作 探索 ， 提 出 了 一 个 技术 转移 模型 [66 ] 。 下 文 总 结 性 
地 介绍 该 模型 中 的 七 个 步骤 ， 以 展示 在 经 验 驱 动 的 改进 中 如 何 使 用 不 同 的 经 验 研究 方 
法 ， 尤 其 是 实验 的 方法 。 该 模型 与 2.9 节 中 的 软件 过 程 改 进 密 切 相 关 ， 如 图 2-5 所 示 。 
该 模型 的 重点 是 使 用 不 同 的 经 验方 法 来 为 真实 的 工业 问题 创造 性 地 给 出 解决 方案 ， 并 
实现 到 工业 应 用 中 。 





图 2-5 技术 转移 模型 (改编 自 Gorschek 等 人 的 描述 [66]) 


工业 问题 识别 。 第 一 步 是 识别 工业 界 在 某 个 特定 上 下 文 环境 中 面临 的 实际 挑战 ， 
这 意味 着 研究 人 员 要 到 工业 合作 伙伴 现场 去 。 可 以 采用 2. 2 节 介 绍 的 调查 或 访谈 等 方 
法 来 识别 挑战 。 目 的 是 找到 挑战 ， 尤 其 是 适合 研究 的 重要 问题 。 所 识别 的 挑战 都 必须 
能 够 被 定义 为 研究 问题 ， 以 避免 研究 人 员 仅 以 处 理 短期 问题 的 顾问 身份 而 告终 。 

这 一 步 最 大 的 收获 是 提供 了 一 个 双方 建立 信任 的 机 会 ， 并 让 工业 伙伴 及 其 雇员 习 
惯 有 研究 人 员 出 现在 其 工作 环境 中 。 根 据 Wohlin 等 的 说 法 [179] ， 在 这 一 阶段 来 自 管 
理 者 和 其 他 参与 合作 工作 的 工程 师 的 承诺 是 确保 未 来 成 功 的 关键 。 

问题 定义 。 基 于 已 识别 的 挑战 ,将 这 些 挑战 描述 为 存在 的 研究 问题 (research 


30 


[32 | 








problem ) ， 从 而 也 就 提出 了 需要 解答 的 研究 问题 。 如 果 识 别 了 多 个 不 同 的 挑战 ， 则 需 
要 给 出 优先 级 。 然 后 ， 给 已 经 选 定 的 挑战 确定 一 个 主要 联络 人 。 联 络 人 最 好 不 只 是 任 
命 的 ， 他 应 该 是 公司 里 的 领导 、 合 作 研 究 的 拥护 者 。 这 有 助 于 联系 到 公司 内 合适 的 人 
员 ， 以 确保 在 需要 的 时 候 研 究 人 员 能 访问 系统 、 查 看 文件 和 数据 。 

研究 人 员 开 展 文献 检索 是 定义 研究 问题 的 必要 部 分 。 这 可 以 采用 第 4 章 提出 的 系 
统 文献 综述 方法 。 文 献 调研 的 目的 是 了 解 针对 所 识别 的 工业 挑战 目前 已 存在 的 解决 方 
法 。 这 有 助 于 理解 已 有 方法 和 实际 工业 需求 之 间 的 关系 。 

候选 方案 。 基 于 已 有 的 方法 和 实际 需要 ， 设 计 一 个 适合 公司 当前 过 程 、 方 法 、 技 
术 和 工具 的 候选 方案 。 该 方案 的 设计 应 与 工业 伙伴 紧密 合作 完成 ， 以 保证 持续 的 可 应 
用 性 。 尽 管 给 出 的 是 针对 一 个 公司 的 特定 解决 方案 ,但 研究 者 的 目的 是 开发 一 个 通用 
解决 方案 ， 然 后 针对 特定 环境 将 其 实例 化 。 

学 术 验 证 。 为 了 降低 风险 ， 方 案 的 初步 验证 最 好 是 在 学 术 环境 下 进行 ， 即 离线 验 
证 。 很 多 情况 下 可 能 是 本 书 若 干 章 中 描述 的 实验 或 者 一 个 学 生 项 目的 案例 研究 。 第 5 
章 概要 介绍 案例 研究 方法 。 学 术 环 境 下 的 验证 可 以 让 学 生 或 者 工业 伙伴 代表 作为 主体 
来 进行 。 

这 一 步 的 主要 目的 是 发 现 建议 方案 中 是 否 存 在 明显 的 缺陷 ， 并 对 候选 方案 提出 改 
进 建议 。 学 术 环境 下 的 验证 是 为 了 保证 能 将 尽 可 能 好 的 方案 提交 给 工业 界 应 用 。 

静态 验证 。 静 态 验证 是 指 工业 代表 离线 评估 候选 解决 方案 。 候 选 解决 方案 可 以 通 
过 对 不 同 工 业 代表 (最 好 是 不 同 的 角色 ) 进行 访谈 或 者 联合 举行 研讨 会 来 进行 验证 。 
此 外 ， 最 好 在 初期 阶段 就 向 企业 简要 介绍 该 候选 解决 方案 ， 以 便 对 方 能 够 尽早 了 解 该 
方案 ， 同 时 也 给 对 方 一 个 在 早期 发 表意 见 的 机 会 。 这 也 有 助 于 减弱 在 将 新 方案 集成 到 
企业 软件 开发 项 目 时 可 能 出 现 的 阻力 。 

基于 静态 验证 的 反馈 ， 新 解决 方案 可 能 需要 做 出 调整 。 这 七 个 步骤 是 迭代 ， 因 此 
这 不 仅仅 是 顺序 执行 问题 ， 不 应 将 其 视 作 没有 反馈 环 的 瀑布 方法 。 

动态 验证 。 一 旦 新 方案 通过 静态 验证 ， 并 获得 许可 和 和 承诺 实施 该 方案 ， 就 要 进行 
动态 验证 。 最 好 采用 试点 评价 的 方法 。 具 体 如 何 进行 动态 验证 取决 于 解决 方案 的 类 型 。 
新 解决 方案 可 能 会 用 于 一 个 项 目 、 子 项 目 、 部 分 系统 或 特定 的 活动 。 建 议 密切 遵循 动 
态 验 证 ， 以 评估 解决 方案 。 第 5 章 将 介绍 如 何 采 用 案例 研究 方法 进行 动态 验证 。 

发 布 方案 。 通 用 解决 方案 必须 针对 具体 场景 进行 裁剪 。 需 要 确保 任何 研究 方案 都 
恰当 地 移交 给 了 工业 伙伴 ， 且 该 公司 能 提供 足够 的 支持 ， 包 括 相关 方面 的 说 明 、 培 训 
和 潜在 的 工具 支持 。 后 者 虽然 不 是 研究 人 员 的 责任 ,但 他 们 必须 支持 合作 伙伴 ， 以 确 
保 新 解决 方案 的 转移 被 适当 地 集成 到 组 织 中 ， 之 后 才能 开始 对 下 一 个 挑战 的 研究 。 

通过 案例 研究 可 以 对 更 广泛 的 使 用 情况 进行 经 验 研究 ， 有 助 于 为 合作 研究 的 新 方 
案 提供 经 验证 据 。 

结束 语 。 概 括 转 移 模型 ， 以 说 明 如 何 采用 不 同 的 经 验 策略 将 基于 需求 识别 的 研究 
成 果 转 移 到 实际 工业 应 用 中 。 
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最 后 ， 我 们 注意 到 ， 工 业 代表 主要 对 针对 其 特定 环境 的 解决 方案 感 兴趣 ， 而 从 研 
究 者 的 角度 来 看 ， 它 只 是 通用 解决 方案 的 一 个 案例 。 因 此 ， 合 作 双 发 的 主要 关注 点 可 
能 不 同 ， 但 最 后 他 们 都 受益 于 共同 合作 。 工 业 合作 伙伴 获得 了 针对 其 某 个 挑战 的 解决 
方案 ， 而 研究 人 员 能 够 在 实际 工业 环境 下 评价 其 研究 成 果 。Gorschek 和 Wohlin [65] 
给 出 了 一 个 需求 抽象 的 通用 解决 方案 案例 ，Gorschek 等 人 [67] 给 出 了 该 方法 的 一 个 
工业 实例 化 方法 。 


2. 11 实验 中 的 伦理 学 


任何 涉及 将 人 作为 主体 的 经 验 研究 活动 都 必须 考虑 伦理 方面 的 问题 。 某 些 方面 受 
国家 法 律 监管 ， 而 有 些 方面 则 根本 不 存在 任何 相关 规定 。Andrews 和 Pradhan 提出 了 软 
件 工程 领域 的 伦理 问题 ， 发 现 了 现 有 政策 的 不 足 [3]。Hall 和 Flynn 在 英国 调查 人 们 
的 伦理 实践 和 伦理 意识 时 发 现 他 们 在 这 方面 惊人 地 无 知 [71] ， 而 这 绝 非特 例 。 

Singer 和 Vinson 引发 了 对 伦理 问题 的 讨论 [158] ， 并 陆续 讨论 了 伦理 问题 的 案例 
[159] ， 给 出 了 经 验 研 究 的 实践 指南 [174] 。 主 要 有 四 条 原则 。 

。 实验 主体 者 必须 知情 并 同意 参与 。 这 意味 着 他 们 在 决定 是 否 参与 之 前 ， 有 权 访 
问 该 研究 的 所 有 相关 信息 。 他 们 的 决定 必须 是 明确 和 自由 的 ， 不 是 隐 含 依赖 于 
管理 人 员 、 教 授 等 。 

为 了 鼓励 实验 主体 愿意 接受 经 验 研 究 的 风险 ， 研 究 必 须 具 有 科研 价值 ， 即 便 只 
具有 很 小 的 科研 价值 。 

研究 人 员 必 须 采 取 一 切 措施 保证 数据 和 敏感 信息 的 保密 性 ， 即 使 这 样 做 会 与 出 
版 利益 发 生 冲突 。 

综合 考虑 和 权衡 风险 、 损 害 以 及 收益 。 对 受益 的 考虑 必须 充分 ， 不 能 只 考虑 某 
些 实验 主体 的 利益 ， 而 应 考虑 整个 实验 主体 群体 和 组 织 的 利益 。 

以 上 准则 被 用 在 一 个 经 验 研 究 的 计划 制定 、 执 行 和 报告 撰写 中 时 ， 往 往 被 具体 化 
为 实践 指南 。 下 面 我 们 给 出 了 Sieber [156] 中 的 一 份 实验 主体 在 实验 中 可 能 面临 的 风 
险 清 单 。 

伦理 审查 。 在 某 些 国家 ， 如 加 拿 大 、 美 国 和 澳大利亚 等 ， 法 律 要 求 对 涉及 人 类 实 
验 主体 的 研究 要 进行 伦理 审查 ， 必 须 遵循 针对 这 类 研究 的 规程 和 文件 。 这 意味 着 需要 
提交 一 份 申请 报告 给 大 学 或 政府 机 构 的 伦理 审查 委员 会 (Ethical Review Board) 进行 
审批 。 目 前 这 些 规程 主要 来 自 于 生物 医学 研究 的 需求 ， 因 此 通常 不 适用 于 软件 工程 研 
究 。Vinson 和 Singer 提 到 ， 在 加 拿 大 ， 人 们 并 不 清楚 使 用 源 代 码 (由 人 编写 并 披露 其 
信息 ) 及 其 数据 的 研究 是 否 应 该 遵循 审查 规程 [174 ]。 

审查 中 所 需 的 文档 通常 包含 一 份 项 目 描述 ， 包 括 实验 主体 和 实验 方案 的 细节 ， 一 
份 关 于 如 何 获 得 知情 同意 书 的 文档 ， 以 及 该 项 目 在 伦理 方面 的 审查 结果 。 

知情 同意 。 面 向 人 的 经 验 研究 ( 如 实验 ) 的 基础 是 实验 主体 是 自愿 参与 的 ， 他 们 
有 足够 的 信息 来 决定 是 否 参与 。 并 且 ， 实 验 主体 可 以 随时 选择 退出 而 不 受到 任何 处 罚 。 
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为 了 使 这 一 决策 过 程 清晰 明了 ， 同 意 书 应 该 以 书面 的 形式 呈现 。 

知情 同意 书 通常 包括 下 列 要 素 [174]: 

。 研究 项 目标 题 : 用 于 了 解 研 究 动 机 。 

。 联系 信息 : 包括 研究 和 伦理 方面 的 联系 信息 。 
同意 和 理解 : 实验 主体 陈述 其 理解 并 愿意 接受 项 目 条 件 。 
退出 : 陈述 退出 且 不 受 处 罚 的 权利 。 
保密 性 : 对 数据 处 理 和 参与 者 信息 保密 的 承诺 。 
风险 与 收益 : 明确 列 出 实验 主体 面临 的 风险 和 获得 的 收益 。 
澄清 : 实验 主体 有 权 要 求知 晓 他 们 在 研究 中 扮演 的 角色 。 
签名 : 通常 是 实验 主体 和 研究 人 员 双 方 的 签名 ; 双方 各 执 一 份 ， 以 表示 双方 意 
见 达成 一 致 。 

在 某 些 实验 设计 中 ， 完 全 公开 实验 目标 和 实验 步骤 可 能 会 影响 实验 的 执行 效果 。 
比如 ， 如 果 预 先知 道 实验 假设 ， 实 验 主体 可 能 会 在 实验 中 相应 地 改变 其 行为 。 因 此 可 
以 采取 半 公 开 的 方式 ， 即 在 更 高 的 抽象 层次 上 呈现 实验 目的 和 实验 步 又 。 

对 于 在 公司 进行 的 经 验 实验 (在线) ， 必 须 同 时 由 组 织 和 各 个 实验 主体 签署 同意 
书 。 特 别 要 说 明 的 是 ， 不 能 命令 实验 主体 参与 ， 且 他 们 可 以 自由 退出 而 不 受到 处 罚 。 
刃 外 ， 还 必须 考虑 公司 内 的 保密 问题 和 人 敏感 结果 。 

同意 书 还 应 说 明 它 仅 适用 于 当前 研究 目标 ， 还 是 将 来 为 了 别 的 研究 目标 进行 深入 
研究 时 仍然 适用 。 

保密 性 。 实 验 主体 必须 承诺 对 与 研究 人 员 分享 的 任何 信息 进行 保密 。 保 密 性 包括 
三 个 方面 [174]: 

© 数据 隐私 ， 指 对 数据 的 访问 限制 ， 例 如 利用 密码 保护 和 加 密 。 

。 数据 匿名 ， 指 将 实验 主体 的 身份 标识 与 数据 分 开 。 

。 匿名 参与 ， 意 味 着 同意 书 是 保密 的 。 

由 于 经 验 研 究 (包括 实验 ) 旨 在 得 出 一 般 人 性 结论 ， 这 与 细节 保密 没有 本 质 冲突 。 
数据 隐私 问题 也 可 以 通过 良好 的 工作 实践 来 解决 。 然 而 ， 由 于 实验 主体 的 数量 较 少 ， 
因此 存在 根据 信息 追踪 到 个 人 的 风险 ， 即 使 蔽 名 也 会 存在 这 种 风险 。 此 外 ， 对 于 研究 
的 外 部 有 效 性 CULES 8.7 节 ) ， 应 该 报告 研究 的 上 下 文 信息 ， 这 可 能 会 和 匿名 性 冲突 。 

参与 者 的 匿名 性 是 最 难 实现 的 。 对 于 实验 招募 的 学 生 ， 尽 管 他 们 可 能 有 权利 拒绝 
参与 实验 ， 但 很 难 不 让 研究 者 知道 哪些 学 生 参 与 了 实验 。 同 样 在 企业 中 ， 管 理 者 很 容 
易 知 道 谁 参与 了 这 项 研究 。Vinson 和 Singer 的 建议 是 “对 于 涉及 学 生 的 研究 ， 研 究 人 
员 应 避免 在 课堂 上 招募 学 生 和 避免 招募 自己 的 学 生 ”[174] ， 但 该 建议 很 少 有 人 遵循 。 

敏感 结果 。 经 验 研究 的 结果 对 于 不 同 的 利益 相关 者 ， 其 敏感 的 方面 也 是 不 同 的 。 
实验 主体 的 个 人 表现 就 是 一 个 例子 ， 往 往 会 是 管理 者 或 教授 希望 看 到 他 的 个 人 表现 。 
经 验 研 究 的 结论 也 可 能 是 敏感 的 ， 尤 其 是 与 该 项 目 投 资方 有 利害 关系 时 。 如 果 一 个 实 
验 不 支持 研究 者 的 假设 ， 该 结果 也 可 能 对 他 们 是 敏感 的 。 
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下 面 这 些 情况 强调 利益 相关 人 员 的 道德 标准 。 可 以 采取 多 种 独立 性 的 措施 进行 约 
R, W: 

© 实验 主体 ， 确 保 严格 执行 保密 规程 ， 独 立地 揭示 事实 Ee [159]); 

© 投资 方 ， 在 针对 公司 的 知情 同意 书 和 研究 项 目 合同 中 明确 声明 对 于 匿名 结果 的 

独立 出 版 权利 ; 

。 研究 人 员 ， 最 好 让 同行 而 不 是 实验 人 员 进 行 匿名 数据 (包括 主体 和 尺度 ) 的 独 

立 统计 分 析 ， 尤 其 当 实 验 处 置 (treatment) 是 实验 人 员 自 己 设 计 的 时 候 。 这 也 
可 以 减少 受到 实验 人 员 主 观 期 望 带 来 的 威胁 。 

这 些 行动 降低 了 陷入 伦理 困境 的 风险 ,并 提高 了 所 有 经 验 研究 的 有 效 性 。 

诱因 (Inducement) 。 为 了 招募 实验 受 试 者 ， 必 须 有 足够 的 诱因 来 吸引 他 们 参与 。 
通过 应 用 新 方法 获得 经 验 和 知识 或 许 是 足够 的 诱因 。 为 了 公平 对 待 所 有 参加 者 ， 所 有 
实验 主体 都 应 该 有 机 会 了 解 所 有 实验 处 置 ， 即 使 实验 设计 并 不 要 求 如 此 。 

可 能 会 涉及 将 金钱 作为 诱因 ， 例 如 ， 以 现金 支付 、 抽 奖 形式 ,或 为 职业 实验 主体 
支付 薪水 。 无 论 以 什么 形式 ， 诱 因 必须 适宜 于 确保 参与 者 是 真正 自愿 参加 的 ， 并 没有 
受过 大 的 经 济 驱 使 或 其 他 诱因 所 强制 。 

反馈 。 为 了 保持 和 研究 实验 主体 长 期 的 合作 与 信任 关系 ， 结 果 和 分 析 的 反馈 是 十 
分 重要 的 。 实 验 主 体 不 必 同 意 分 析 结 论 ， 但 是 应 该 享有 获取 实验 相关 信息 和 结果 的 权 
利 。 从 保密 性 的 角度 ， 如 果 可 能 的 话 , 个 体 绩效 数据 应 该 和 总 体 分 析 结 果 一 起 报告 
返回 。 

基于 伦理 的 结论 。Singer 和 Vinson 在 其 早期 工作 中 寻求 制定 经 验 软 件 工程 的 一 套 
伦理 行为 准则 [159]。 然 而 ，10 年 过 去 了 ， 软 件 行业 仍 没 能 开发 出 一 套 类 似 的 规范 ， 
最 接近 的 也 就 是 上 文 总 结 的 Vinso 和 Singer 的 指南 。 研 究 资 助 机 构 开始 要 求 采用 通用 
的 伦理 准则 ， 虽 然 可 能 并 不 合适 。 凝 练 和 制定 适合 于 经 验 软 件 工程 研究 的 伦理 准则 对 
于 实验 主体 〈 保 护 对 象 ) 和 该 研究 领域 的 发 展 都 很 有 好 处 。 


2. 12 练习 


2.1 定性 与 定量 研究 的 区 别 是 什么 ? 

2.2 什么 是 调查 法 ? 请 举例 说 明 软 件 工程 领域 中 不 同类 型 的 调查 法 。 

2.3 实验 重 现 和 系统 文献 综述 在 构建 经 验 知识 中 起 到 什么 作用 ? 

2.4 在 技术 转移 方面 ,“ 经 验 工厂 ”如 何 将 目标 /问题 /度量 方法 与 经 验 研 究 相 结合 ? 
2.5” 先 观察 后 做 实验 的 主要 伦理 原则 有 哪些 ? 
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软件 度量 是 使 得 项 目 、 产 品 和 过 程 可 控 的 关键 因素 。 正 如 DeMarco 所 言 :“ 你 不 可 
能 控制 你 无 法 度量 的 东西 ”[41]。 此 外 ， 度 量 也 是 经 验 研 究 的 中 心 环节 。 经 验 研究 用 
于 分 析 某 些 输 入 对 被 研究 对 象 的 影响 。 为 了 控制 研究 过 程 并 看 见效 果 ， 必 须 同时 对 输 
入 和 输出 进行 度量 ， 以 描述 什么 样 的 输入 会 对 输出 产生 影响 。 没 有 度量 ， 便 不 可 能 对 
研究 进行 操控 ， 也 就 不 能 进行 经 验 研究 。 

度量 (Measurement) 和 度量 值 (Measure) 的 定义 为 [56]: “度量 是 指 按照 清晰 
定义 的 规则 为 描述 现实 世界 中 实体 的 属性 而 为 其 分 配 数值 或 符号 的 过 程 。” 度量 值 则 指 
其 中 用 于 描述 属性 的 数值 或 符号 。 

我 们 通过 研究 度量 值 来 对 实体 进行 评估 ， 而 不 是 直接 进行 评估 。 度 量 指标 
(Metric) 这 个 词 在 软件 工程 中 也 很 常见 。 它 有 两 种 不 同 的 含义 。 首 先 ， 软 件 度量 标准 
是 一 个 表示 软件 工程 度量 领域 的 术语 ， 如 Fenton 和 Pfleeger 的 书 中 [56] 对 其 的 使 
Ho Ak, 度量 指标 也 用 于 表示 被 度量 的 实体 。 例如， 代码 行 数 (LOC) 就 是 一 
种 产品 度量 指标 。 更 确切 地 说 ， 它 是 程序 规模 的 度量 值 。Shepperd 对 软件 度量 有 
进一步 的 讨论 [150]. 

本 章 介绍 基本 度量 原理 。3. 1 节 介 绍 度量 理论 的 基本 概念 及 度量 的 不 同 尺度 类 型 。 
3. 2 节 介 绍 软 件 工程 中 的 度量 值 实例 及 其 与 统计 学 分 析 的 联系 。3. 3 节 则 在 实践 层面 对 
度量 进行 讨论 。 


3. 1 基本 概念 


度量 值 是 从 实体 属性 到 度量 所 得 值 的 一 个 映射 ,通常 为 一 个 数值 。 实 体 是 指 在 现 
实 世 界 中 可 以 观察 的 对 象 。 将 属性 映射 为 一 个 度量 值 的 目的 是 形式 化 地 描述 和 处 理 该 
属性 。 因 此 ， 度 量 值 的 一 个 基本 特性 是 必须 反映 该 属性 的 经 验 观 测 结果 [57] 。 也 即 ， 
如 果 观 察 到 对 象 A 比 对 象 B 长 ， 则 A 的 度量 值 必 须 大 于 B 的 度量 值 。 

当 我 们 在 经 验 研 究 中 使 用 度量 值 时 ， 首 先 要 确保 它 的 有 效 性 。 要 确保 有 效 ， 度 
量 值 不 能 违背 其 度量 的 属性 的 任何 必要 特性 ， 并 且 必 须 是 该 属性 一 个 恰当 的 数学 
表征 。 

一 个 有 效 度量 值 可 区 分 不 同 的 对 象 ， 但 在 度量 误差 范围 内 ， 对 象 可 以 具有 相同 的 
度量 值 。 度 量 值 也 必须 反映 我 们 对 属性 的 直觉 概念 ， 及 对 象 间 相 互 区 分 的 方式 [97] 。 
度量 值 必须 具有 分 析 有 效 性 和 经 验 有 效 性 。 度 量 值 的 分 析 有 效 性 是 指 能 否 准 确 可 靠 地 
捕获 所 关注 的 内 容 ; 经 验 有 效 性 (有 时 亦 称 统计 或 预测 能 力 ) 则 描述 该 值 与 其 在 不 同 
环境 条 件 下 度量 结果 的 相关 性 。 
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效应 量 (Effect size) 是 量化 两 组 对 象 之 间 差 异 的 一 种 简单 方式 。 它 在 实验 中 非常 
重要 ， 虽 然 不 一 定 具 有 现实 意义 ， 但 它 可 能 会 显示 两 组 对 象 在 统计 上 的 显著 差异 。 通 
常 认为 ， 如 果实 验 中 主体 数量 足够 多 ， 即 可 显示 出 统计 上 的 显著 差异 ， 但 这 并 不 意味 
着 有 现实 意义 。 有 时 可 能 因为 差异 太 小 ， 或 是 因为 发 现 差异 的 成 本 太 高 。 

将 属性 映射 到 度量 值 有 多 种 不 同 的 方式 ， 我 们 将 其 称 为 尺度 ( Scale)。 如 果 属 性 
是 对 象 的 长 度 ， 我 们 可 以 用 米 、 厘 米 或 英寸 来 度量 它 ， 这 里 米 、 厘 米 、 英 寸 是 度量 长 
度 的 不 同 尺度 。 

由 于 对 同一 属性 的 度量 可 以 用 多 个 尺度 ， 所 以 有 时 希望 将 度量 从 一 个 尺度 变换 到 
另 一 个 尺度 。 如 果 这 个 变换 保留 了 对 象 间 的 关系 ， 则 称 其 为 容许 变换 (Admissible 
Transformation) [56 ] ， 也 称 尺 度 改 变 (Rescaling) 。 

用 属性 的 度量 值 可 对 对 象 及 不 同 对 象 之 间 的 关系 进行 陈述 。 如 果 尺 度 改变 不 影响 
陈述 的 正确 性 ， 则 称 该 陈述 是 有 意义 的 ， 否 则 就 是 无 意义 [27]。 例 如 ， 如 果 分 别 度 量 
MRA 和 B 的 长 度 , 得 A 为 1m，B 为 2m， 我 们 就 可 以 声称 “B 的 长 度 是 A 的 两 倍 ”。 
如 果 用 厘米 或 英寸 作为 尺度 去 度量 ， 这 个 陈述 仍然 是 正确 的 ， 因 而 它 就 是 有 意义 的 。 
又 如 ， 如 果 度 量 房间 A 和 房间 了 内 的 温度 ,分 别 为 10C 和 20%C， 则 有 陈述 “房间 B 
比 房间 A 温暖 一 倍 ” 。 但 如 果 用 华氏 温标 去 重新 度量 ， 则 将 得 到 50 下 和 68 下 ， 之 前 的 
陈述 不 再 正确 ， 因 而 这 个 陈述 就 是 无 意义 的 。 

根据 不 同 尺 度 之 间 可 否 进行 容许 变换 ， 可 将 尺度 进行 分 类 。 具 有 相同 特性 的 尺度 
属于 同一 尺度 类 型 ,不同 的 尺度 类 型 有 强 弱 之 分 : 可 表达 的 有 意义 陈述 越 多 ， 则 尺度 
类 型 越 强大 。 下 面 将 介绍 一 些 常 用 的 尺度 类 型 。 

度量 值 还 有 男 两 种 分 类 方式 : (1) 直接 度量 值 还 是 间接 度量 值 ; (2) 客观 度量 值 
还 是 主观 度量 值 。 这 两 种 分 类 方式 也 将 在 后 面 进行 讨论 。 


3.1.1 尺度 类 型 


最 常见 的 尺度 类 型 有 如 下 四 种 [27, 56, 57]9 。 

(1) 定 类 : 定 类 尺度 (Nominal Scale) 是 尺度 类 型 中 最 弱 的 一 种 。 它 只 将 实体 属 
性 映射 为 一 个 名 字 或 符号 。 这 种 映射 可 视 作 依据 该 属性 对 实体 的 一 种 分 类 。 

定 类 尺度 进行 容许 变换 的 前 提 是 实体 必须 一 一 映射 。 

定 类 尺度 的 例子 有 : 分 类 、 标 记 和 缺 陷 分 类 。 

(2) F: 定 序 尺度 (Ordinal Scale) 将 实体 按 某 排序 标准 进行 排序 ， 因 而 比 定 
类 尺度 更 强 。 排 序 标准 如 :“ 大 于 ”“ 优 于 ”和 “更 复杂 "”。 

定 序 尺度 进行 容许 变换 的 前 提 是 保证 实体 的 顺序 不 变 。 例 如 ， 若 M' 和 M 是 同一 属 
性 的 不 同 度量 值 ，F 是 单调 增长 的 函数 ， 则 M' =F(M) 。 

定 序 尺度 的 例子 : 年 级 、 软 件 复杂 度 。 





© Fenton 等 [56, 57] 提出 了 第 五 种 尺度 类 型 ， 即 绝对 尺度 。 这 是 定 比 尺度 的 一 个 特例 ， 主 要 指 值 本 身 仅 
用 于 转移 意义 。 计 数 是 绝对 尺度 的 一 个 例子 。 


[38 | 











39 














40 











(3) ZE: 当 关 注 点 是 两 个 度量 值 的 差 ， 而 非 度 量 值 本 身 时 ,通常 使 用 定 距 尺度 
(Interval Scale) 。 该 尺度 类 型 和 定 序 尺 度 一 样 会 将 实体 进行 排序 ， 但 不 同 的 是 这 里 考虑 
两 个 实体 间 的 “相对 距离 ”。 因 此 该 尺度 比 定 序 太 度 类 型 更 强 。 

定 距 尺度 进行 容许 变换 的 前 提 是 度量 值 互 为 线性 组 合 ， 例 如 ，M' 和 M 是 同一 属性 
的 不 同 度量 值 ，M' = waM + B。 定 距 尺 度 度 量 值 在 软件 工程 中 较为 少见 。 

定 距 尺度 的 例子 : 用 华氏 温标 或 摄氏 温标 度量 温度 。 

(4) 定 比 : 当 度量 值 存在 一 个 有 意义 的 零 值 ， 并 且 两 个 度量 值 间 的 比率 也 有 意义 
时 ， 可 以 使 用 定 比 尺度 (Ratio Scale) 。 

定 比 尺度 进行 容许 变换 的 前 提 是 它们 有 相同 的 零 值 ， 并 且 度 量 值 间 的 区 别 仅 在 于 
常数 倍 的 不 同 。 例 如 ，M' 和 M 是 同一 属性 的 不 同 度量 值 ，M' = aM。 

定 比 尺 度 的 例子 : 长 度 、 绝 对 温标 、 某 一 开发 阶段 的 持续 时 间 。 

度量 尺度 与 定性 和 定量 研究 有 关 。 进 一 步 来 说 ， 还 与 度量 值 可 使 用 的 统计 方法 有 
关 。 详 见 第 10 章 。 据 Kachigan 的 研究 [90] 指出 ， 定 性 研究 一 般 使 用 定 类 尺度 和 定 
序 尺度 ; 定量 研究 一 般 使 用 定 距 尺度 和 定 比 尺度 。 





3. 1.2 客观 和 主观 度量 


有 时 对 属性 的 度量 必须 考虑 度量 的 视角 。 为 此 又 将 度量 值 分 为 如 下 两 类 。 

(1) 客观 : 客观 度量 值 在 度量 中 不 需 进行 人 为 判断 ， 因 而 只 与 被 度量 的 对 象 有 
关 。 客 观 度量 值 可 以 由 不 同 的 研究 人 员 多 次 度量 ， 每 一 次 得 出 的 值 在 度量 误差 范围 内 
都 是 一 样 的 。 客 观 度量 值 的 例子 : 代码 行 数 (LOC) 、 交 货 日 期 。 

(2) 主观 : 主观 度量 值 与 客观 度量 值 相反 。 需 要 人 做 出 茶 些 判断 来 获得 度量 结 
果 。 因 而 ， 该 度量 值 不 仅 与 被 度量 的 对 象 有 关 ， 还 与 人 采用 的 视角 有 关 。 主 观 度量 值 
在 多 次 进行 时 每 一 次 的 结果 都 可 能 是 不 一 样 的 。 主 观 度量 值 一 般 使 用 定 类 或 定 序 尺 度 
类 型 。 主 观 度量 值 的 例子 有 : 人 员 技 能 、 可 用 性 。 

主观 度量 值 总 是 会 受 潜在 的 偏见 的 影响 ，3. 3 节 将 对 此 再 进行 讨论 。 


3. 1.3 直接 和 间接 度量 


我 们 感 兴趣 的 属性 有 时 不 能 直接 进行 度量 。 对 它们 的 度量 值 必须 通过 其 他 直接 可 
度量 的 度量 值 派生 。 为 了 区 分 直接 度量 所 得 的 度量 值 和 派生 的 度量 值 ， 我 们 把 度量 值 
划分 为 直接 度量 值 和 间接 度量 值 。 

(1) 直接 : 属性 的 直接 度量 是 指 可 直接 测量 的 ， 不 涉及 对 其 他 属性 的 度量 。 直 接 
度量 值 的 例子 有 : 代码 行 数 、 测 试 中 发 现 的 缺陷 数量 。 

(2) 间接 : 属性 的 间接 度量 涉及 对 其 他 属性 的 度量 。 间 接 度量 值 是 由 其 他 度量 值 
派生 出 来 的 。 间 接 度量 值 的 例子 有 : 缺陷 密度 (缺陷 的 数量 除 以 代码 行 数 )、 程 序 员 
生产 率 (代码 行 数 除 以 程序 员 的 工作 量 ) o 
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3.2 软件 工程 中 的 度量 


在 软件 工程 中 ， 我 们 关注 的 对 象 主要 可 以 分 为 三 类 。 

o 过 程 (Process): 过 程 描述 了 生产 软件 所 需 的 活动 。 

e 产品 (Product); 产品 是 过 程 活动 中 产生 的 制品 、 可 交付 物 或 文档 。 

o 资源 (Resources): 资源 是 过 程 活动 所 需 的 对 象 ， 如 人 员 、 硬 件 或 软件 。 

在 上 述 各 类 中 ， 我 们 也 区 分 内 部 和 外 部 属性 [55 ] 。 内 部 属性 是 指 仅仅 根据 对 象 
本 身 就 可 以 被 度量 的 属性 。 外 部 属性 的 度量 则 必须 考虑 与 其 他 对 象 之 间 的 关系 才能 进 
行 。 不 同 软件 度量 值 的 例子 在 表 3-1 中 列 出 。 


表 3-1 软件 工程 中 的 度量 实例 
































类 g 对 象 举例 属性 类 型 度量 值 举例 
内 部 [ 作 量 
过 程 测试 
外 部 成 本 
产品 | 代码 0 
外 部 可 靠 性 
aye ER 
资源 人 员 
外 部 生产 力 





在 软件 工程 中 ， 软 件 工 程 师 通常 希望 陈述 一 个 对 象 的 外 部 属性 。 但 外 部 属性 大 多 
数 是 间接 度量 值 ， 必 须 由 该 对 象 的 内 部 属性 派生 得 到 。 内 部 属性 则 大 多 是 直接 度量 值 。 

度量 值 通常 是 度量 程序 的 一 部 分 。 例 如 ，Grady 和 Caswell [68] 以 及 Hetzel [75 | 
曾 讨论 过 构建 软件 度量 程序 的 方法 。 

软件 工程 中 的 度量 不 同 于 其 他 领域 的 度量 ， 如 物理 学 。 在 后 者 ， 度 量 什么 属性 以 
及 如 何 度量 通常 是 很 明确 的 。 然 而 ， 在 软件 工程 领域 ， 有 时 很 难以 一 种 大 家 都 认可 的 
度量 方式 来 定义 属性 [56 ] 。 另 一 个 不 同 之 处 是 ,在 软件 工程 中 很 难 证 明 这 些 度量 值 是 
和 否 都 只 是 定 类 或 定 序 尺 度 类 型 。 间 接 度 量 值 的 验证 往往 更 加 困难 ， 因 为 它 不 仅 需要 验 
证 它 所 包含 的 直接 度量 值 ， 还 需要 验证 派生 出 外 部 度量 值 的 模型 。 

当 进 行经 验 研究 时 ， 我 们 关注 度量 值 的 尺度 类 型 ， 也 关注 其 上 可 采用 的 统计 分 析 
方法 。 形 式 上 ,统计 分 析 方 法 取决 于 尺度 类 型 ， 但 这 些 方法 通常 比 尺度 类 型 有 更 好 的 
和 鲁 棒 性 。 基 本 的 规则 是 ,使 用 的 尺度 类 型 越 强 大 ， 则 可 用 的 分 析 方 法 也 越 强 大 ， 参 见 
第 10 章 。 

在 软件 工程 中 ， 许 多 度量 值 都 常 采 用 定 类 尺度 或 定 序 尺 度 来 度量 ， 虽 然 并 不 能 证 
明 它 们 不 能 用 更 强 的 尺度 类 型 ， 但 却 意 味 着 我 们 不 能 使 用 那些 要 求 定 距 或 定 比 尺度 的 
更 强 的 统计 分 析 方 法 来 开展 经 验 研 究 。 

Briand 等 人 [27] 认为 ， 即 便 不 能 证 明 我 们 能 够 使 用 定 距 或 定 比 尺度 ， 我 们 依然 
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可 以 使 用 更 强大 的 统计 分 析 方法 。 在 失真 不 是 很 极端 时 ， 大 多 数 强大 的 统计 方法 对 于 
定 矩 尺度 的 非 线性 失真 仍然 是 鲁 棒 的 。 如 果 我 们 能 谨慎 地 考虑 风险 ， 便 可 以 使 用 更 强 
大 的 统计 方法 来 获得 结果 ， 当 然 前 提 条 件 是 获得 大 规模 的 度量 值 样本 。 


3.3 ”实践 中 的 度量 


实践 中 ， 由 研究 人 员 定 义 度量 标准 ， 然 后 在 经 验 研究 的 操作 阶段 收集 数据 。 接 下 
来 考虑 如 何 收集 数据 ， 最 好 能 不 要 求实 验 主体 花费 太 多 的 精力 。 在 很 多 实验 中 ， 实 验 
主体 通过 填写 表格 来 提供 数据 ; 当然 也 可 以 使 用 工具 来 自动 收集 数据 ， 比 如 使 用 开发 
环境 。Lethbridge 等 [111] 讨论 了 一 些 通用 数据 收集 技术 。 

由 于 收集 到 的 度量 数据 是 进一步 分 析 的 基础 ， 所 以 它们 的 质量 对 于 研究 的 后 续 分 
析 至 关 重 要 。 这 也 就 意味 着 真正 弄 清 楚 应 该 收集 哪些 类 型 的 度量 数据 及 其 属于 哪 一 尺 
度 类 型 是 很 重要 和 的。 同样 ， 和 弄 清楚 它们 服从 何 种 概率 分 布 也 很 重要 ， 尤 其 是 要 知道 是 
否 满足 正 态 分 布 。 

当 考 虑 到 概率 分 布 时 ， 就 可 以 使 用 描述 性 统计 方法 来 调研 。 比 如 ， 可 以 在 图 中 标 
绘 数据 ， 或 者 采用 其 他 分 析 技 术 来 分 析 该 数据 在 何 种 程度 上 呈正 态 分 布 。 详 细 介 绍 见 
第 10 章 。 采 用 何 种 尺度 类 型 取决 于 度量 标准 的 定义 ， 因 此 研究 人 员 在 定义 度量 标准 时 
要 对 及 度 类 型 有 充分 的 理解 。 

度量 标准 的 定义 将 在 很 大 程度 上 影响 度量 数据 的 展示 效果 ， 而 这 正 是 研究 人 员 所 
关心 的 。 例 如 ，Kitchenham 等 人 [102] 比较 了 两 种 展示 生产 率 的 方法 ， 结 果 表 明 ， 
展示 工作 量 和 规模 的 散 点 图 比 展示 随时 间 变 化 的 生产 率 图 表 效果 更 好 。 一 条 普 适 的 经 
验 是 ， 最 好 不 要 使 用 由 两 个 独立 度量 值 的 比值 构成 的 度量 标准 ， 除 非 你 真 的 能 说 清楚 
该 度量 值 的 含义 

在 研究 的 操作 过 程 中 ， 确 保 所 收集 数据 的 正确 性 是 非常 重要 的 。 这 意味 着 ， 研 究 
者 需要 在 实验 中 采取 质量 保证 措施 。 比 如 审查 实验 主体 是 如 何 填写 表格 的 、 检 查 数据 
的 一 致 性 等 。 关 于 数据 验证 的 内 容 将 在 第 8 章 讨论 。 

还 有 一 个 需要 考虑 的 因素 是 ， 谁 是 实验 中 被 调查 内 容 的 提出 者 或 拥有 者 。 正 
如 Kitchenham 等 人 建议 的 [98], 理想 的 做 法 是 由 新 方法 的 提出 者 之 外 的 其 他 人 
通过 实验 或 其 他 研究 方法 来 评价 该 方法 。 方 法 的 提出 者 自然 希望 这 个 方法 表现 优 
异 ， 其 作为 研究 者 时 会 有 意 或 无 意 地 选择 对 该 方法 有 利 的 度量 标准 ， 因 而 存在 风 
险 。 如 果实 验 主体 得 知 研究 者 就 是 被 评估 方法 的 提出 者 ， 也 会 影响 其 行为 。 如 果 
实验 要 在 新 方法 被 提出 的 地 方 进行 ,那么 度量 标准 的 设计 和 选取 应 该 经 过 外 部 研 
究 人 员 的 审查 。 


3.4 练习 


3.1 什么 是 度量 值 、 度 量 和 度量 标准 ， 它 们 之 间 有 什么 关系 ? 
3.2 ”四 个 主要 的 度量 尺度 类 型 分 别 是 什么 ? 








3:3 直接 度量 值 和 间接 度量 值 的 区 别 是 什么 ? 

3.4” 较 件 主 程 中 的 度量 分 成 哪 三 类 ? 

3.5 什么 是 内 部 和 外 部属 性 ? 它们 与 直接 度量 值 和 间接 度量 值 之 间 的 常见 关系 是 
什么 ? 
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系统 文献 综述 





系统 文献 综述 (Systematic Literature Reviews) 导 在 “定义 、 分 析 和 解释 与 特定 研 
究 问 题 相关 的 所 有 可 用 的 证 据 ”[96]。 其 目标 是 对 当前 的 事实 给 出 一 个 完整 、 全 面 和 
有 效 的 描述 ， 因 此 “定义 、 分 析 和 解释 ”必须 以 科学 且 严 赣 的 方式 进行 。 为 了 实现 这 
个 目标 ，Kitchenham 和 Charters 主要 借鉴 来 自 医学 领域 中 的 系统 文献 综述 方法 ， 对 其 
进行 评估 [24] 和 适应 性 修改 [96], ， 制 定 了 适合 软件 工程 领域 的 系统 文献 综述 指南 。 
该 指南 将 其 结构 化 为 制定 综述 计划 、 执 行 综述 和 撰写 综述 报告 三 个 步 又， 本 节 将 逐一 
AIA 


4.1 制定 综述 计划 


制定 系统 文献 综述 计划 包含 以 下 几 个 步骤 。 

识别 综述 需求 ， 对 系统 综述 的 需求 主要 来 源 于 研究 人 员 和 希望 了 解 一 个 领域 的 最 新 
进展 ， 或 者 从 业 人 员 希 望 在 制定 战略 决策 或 活动 改进 时 使 用 经 验 性 证 据 。 如 果 某 领域 
已 或 多 或 少 地 有 一 些 系统 文献 综述 ， 则 应 根据 其 所 调研 的 范围 和 质量 来 评估 是 否 满足 
当前 综述 的 需求 。 系 统 文献 综述 是 一 种 进行 文献 综述 的 研究 方法 。 

指定 研究 问题 : 为 了 识别 原始 研究 ， 以 及 从 这 些 研 究 和 分 析 中 提取 数据 ， 需 要 指 
定 系 统 综述 的 范围 和 聚焦 研究 的 问题 。 因 此 ， 研 究 问 题 的 提出 必须 经 过 深思 熟 虑 ， 描 
述 时 需要 精心 措辞 。 描 述 研究 问题 时 应 考虑 以 下 几 个 方面 [96] 。 

。 证 据 采集 的 总 体 。 即 ， 综 述 对 哪些 人 群 、 项 目 或 业务 感 兴趣 。 
经 验 研究 中 的 介入 项 (intervention) 。 即 ， 被 研究 的 技术 、 工 具 或 方法 。 
。 对 各 种 介入 项 的 比较 。 即 ， 控 制 处 置 是 如 何 定 义 的 ? 特别 需要 注意 “无 效 对 照 
组 ”介入 项 。 因 为 在 软件 工程 领域 ,“ 不 使 用 该 介入 项 ”通常 是 种 无 效 行为 。 
实验 的 结果 不 仅 应 该 满足 统计 学 意义 ， 而 且 也 要 有 实践 意义 。 例 如 ， 如 果 需 要 
用 两 倍 的 时 间 来 获得 某 部 分 10% 的 改进 ， 则 实际 意义 不 大 。 

。 务必 要 定义 研究 的 背景 ， 这 是 对 总 体 的 扩展 描述 ， 包 括 是 在 学 术 界 ， 还 是 在 工 

业界 进行 ， 具体 工业 部 门 ， 以 及 主体 的 动机 [78，132] 。 

。 需要 定义 研究 问题 中 的 实验 设计 。 

Staples 和 Niazi 建议 由 清晰 聚焦 的 研究 问题 来 界定 系统 文献 综述 的 范围 ， 以 避免 研 
究 变 得 不 可 控 [166]。 

制定 综述 方案 : 综述 方案 决定 了 系统 综述 的 流程 。 它 也 在 综述 的 进行 中 扮演 日 志 
的 角色 。 因 此 ， 综 述 方案 是 个 “ 活 ” 文 档 。Kitchenham 和 Charters 提出 在 综述 方案 中 
必须 要 覆盖 以 下 几 项 内 容 [96]: 
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© 研究 背景 和 意义 ; 

© 研究 问题 ; 

© 针对 原始 研究 的 搜索 策略 ; 

。 文献 的 选择 标准 ; 

© 文献 的 选择 程序 ; 

。 文献 质量 评估 检查 单 和 评估 过 程 ; 

。 数据 提取 策略 ; 

o 提取 数据 的 综合 分 析 ; 

。 发 布 策略 ; 

。 项 目 进度 安排 。 

为 了 保证 方案 的 一 致 性 和 有 效 性 ， 最 好 进行 同行 评审 。 系 统 文献 综述 的 经 验 表 明 ， 
预先 评审 有 助 于 确定 研究 问题 的 范围 ， 以 及 在 方案 制定 过 程 中 随 着 被 研究 的 问题 逐渐 
清晰 可 以 对 研究 问题 进行 调整 [24]. 


4.2 实施 综述 


实施 综述 就 是 将 综述 方案 付 诸 实 践 。 这 包含 以 下 几 点 。 

研究 的 识别 : 该 步 的 主要 任务 是 指定 搜索 字符 串 并 将 其 用 于 数据 库 搜 索 。 当 然 也 
包括 对 期 刊 和 会 议论 文集 的 手动 搜索 ， 以 及 对 研究 人 员 个 人 网 站 的 搜索 和 通过 发 送 问 
卷 给 研究 者 的 搜索 。 基 于 参考 文献 前 向 或 后 向 地 系统 搜索 原始 研究 的 方法 叫做 “ 滚 雪 
BR” [145]. 

搜索 策略 是 权衡 的 结果 ， 目 的 是 找到 所 有 原始 研究 ， 同 时 不 会 导致 很 高 的 误 报 率 
CRRA FTIR) [43 ] 。 所 谓 误 报 (false positive) 是 指 错误 地 将 不 正确 的 答 
案 作 为 正确 的 结果 输出 。 在 这 里 ， 是 指 某 篇 文章 由 于 能 被 检索 到 而 被 认为 与 当前 主题 
相关 ， 但 是 之 后 发 现 并 非 如 此 ， 所 以 应 将 其 剔除 。 搜 索 字 符 串 是 根据 所 履 盖 的 领域 和 
研究 问题 决定 的 。 为 了 找到 所 有 相关 文献 ， 必 须 搜索 多 个 数据 库 ， 因 此 会 重复 找到 同 
一 文献 ， 为 此 还 需要 识别 并 剔除 这 些 重复 的 文献 。 最 后 ， 所 找到 的 论文 必须 是 某 个 主 
题 所 有 论文 中 的 一 个 样本 。 关 键 点 在 于 这 个 样本 确实 是 来 源 于 预期 的 总 体 。 

已 发 表 的 原始 研究 会 存在 发 表 偏 傈 ， 也 即 (在 某 种 程度 上 ) 正面 结果 比 负面 结果 
更 可 能 被 发 表 。 因 此 ， 还 应 搜索 灰色 文献 ， 如 技术 报告 、 学 位 论文 、 被 拒绝 的 出 版 物 ， 
以 及 正在 进行 的 工作 等 [96]. 

搜索 结果 和 搜索 动作 日 志 都 应 该 存储 下 来 ， 可 以 采用 文献 管理 系统 来 记录 。 

原始 研究 的 选择 : 选择 原始 研究 的 核心 在 于 选择 的 标准 。 为 了 避免 偏 倚 ， 标 准 应 
该 提前 制定 。 然 而 ， 由 于 在 计划 阶段 可 能 对 涉及 选择 的 各 个 方面 考虑 不 周全 ， 因 此 在 
选择 过 程 中 也 可 以 对 标准 进行 适当 调整 。 

根据 选择 标准 ， 识 别 出 候选 研究 的 集合 。 对 于 一 些 研 究 ， 只 读 标 题 和 摘要 就 足以 
判断 了 ， 但 对 于 某 些 研究 则 需要 更 全 面 的 分 析 ， 例 如 根据 论文 所 采用 的 研究 方法 或 者 


[47 | 


36 P-E F x 





结论 来 判断 是 否 选择 。 结 构 化 摘要 [30] 可 能 对 选择 过 程 有 帮助 。 

文献 选择 实际 上 是 一 个 判断 过 程 ， 且 应 基于 定义 良好 的 判断 标准 ， 因 此 建议 至 少 
两 个 研究 者 对 每 一 篇 论文 进行 评估 ， 或 者 至 少 对 随机 论文 样本 进行 评估 。 可 以 使 用 
Cohen Kappa 统计 来 度量 评分 之 间 的 一 致 性 度 [36] ， 并 将 其 作为 系统 文献 综述 报告 中 
质量 评估 的 一 部 分 。 然 而 ， 因 为 很 多 自动 搜索 出 的 论文 很 容易 在 研究 者 人 工分 析 时 被 
排除 ， 所 以 注意 应 该 要 用 一 个 相对 来 说 较 高 的 Cohen Kappa 统计 量 。 因 此 ， 分 步骤 地 
进行 评估 可 能 很 重要 ， 即 首先 移 除 那些 明显 不 相关 的 论文 ， 即 使 它们 被 搜索 出 来 了 。 

研究 质量 评估 : 评估 原始 研究 的 质量 非常 重要 ， 尤 其 是 在 这 些 研究 报告 的 结果 互 
相 矛 盾 时 。 原 始 研究 的 质量 可 用 来 分 析 产 生 了 矛盾 结果 的 原因 或 者 在 整合 结果 的 时 候 用 
来 权衡 每 个 研究 的 重要 性 。 

“研究 质量 ”没有 一 个 普遍 认可 并 且 实 用 的 定义 。 医 学 中 制订 质量 标准 的 尝试 并 
没 能 映射 到 软件 工程 研究 的 质量 范围 中 [47] 。 

最 实用 且 有 效 的 质量 评估 方法 就 是 检查 单 (checklist) ， 虽 然 其 经 验 基础 比较 薄 
弱 。Kitchenham 等 的 一 项 研究 表明 ,一 个 有 效 的 评估 至 少 需要 三 个 评审 人 员 
[105 ] 。 用 于 经 验 研 究 质 量 评估 的 检查 单 也 适用 于 经 验 软件 工程 文献 的 质量 评估 
[96, 105, 145]. 

如 果 将 研究 质量 作为 文献 选择 标准 的 一 部 分 ， 那 么 可 能 会 排除 一 些 原始 研究 。 值 
得 注意 的 是 ， 被 评估 的 是 原始 研究 的 质量 而 不 是 报告 的 质量 。 但 是 ， 如 果 报 告 写 得 不 
好 ， 会 使 该 研究 的 质量 很 难 评判 。 可 能 需要 与 作者 联系 来 发 现 或 者 明确 报告 中 缺失 的 
信息 。 

数据 的 提取 与 监控 : 一 旦 确定 了 原始 研究 检查 单 ， 就 需要 提取 原始 研究 中 的 数据 
了 。 需 要 设计 一 个 数据 提取 表 来 从 原始 研究 报告 中 收集 所 需 的 信息 。 如 果 在 研究 选择 
中 采用 了 质量 评估 数据 ， 则 该 数据 提取 表 应 分 为 两 个 部 分 : 一 个 用 于 在 质量 评估 过 程 
中 填写 质量 数据 ， 另 一 个 在 数据 提取 过 程 中 填写 研究 数据 。 

数据 提取 表 是 根据 研究 问题 设计 的 。 对 于 纯粹 的 元 分 析 综合 而 言 ， 数 据 是 一 组 数 
值 ， 表 示 主 体 的 数量 、 对 象 的 特征 、 处 置 的 效果 、 置 信 区 间 等 。 对 于 弱 同 质 的 研究 组 ， 
必定 会 包括 更 多 原始 研究 的 定性 描述 。 除 了 原始 数据 之 外 ， 每 个 原始 研究 的 评审 人 姓 
名 、 数 据 提取 日 期 以 及 出 版 细节 都 应 记录 下 来 。 

在 原始 研究 中 全 面 使 用 数据 提取 表 之 前 ， 应 该 对 其 进行 试点 性 使 用 。 为 了 评估 提 
取 过 程 的 质量 ， 如 果 有 可 能 的 话 应 该 由 两 位 研究 者 ， 至 少 对 研究 中 的 样本 ， 独 立地 进 
行 数据 提取 。 

如 果 一 个 原始 研究 不 止 在 一 篇 论文 中 发 表 ， 例 如 一 篇 会 议论 文 被 扩展 为 一 篇 期 刊 
论文 ， 则 这 两 篇 文章 只 能 算 作 一 个 原始 研究 。 如 果 这 两 个 版 本 都 在 数据 提取 中 ， 大 多 
数 情况 下 更 倾向 于 采用 期 刊 论文 ， 因 为 它 更 为 完整 。 技 术 报告 或 者 与 作者 的 沟通 也 可 
作为 数据 提取 源 。 

数据 综合 分 析 : 最 先进 的 数据 综合 分 析 方 法 是 元 分 析 (Meta-Analysis) o ix HTH H 
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于 分 析 多 个 独立 研究 结果 的 统计 方法 。 元 分 析 假设 被 综合 分 析 的 研究 应 该 是 同 质 的 


(或 同类 型 的 ) ， 或 者 其 非 同 质 的 原因 是 众所周知 的 【135]。 元 分 析 对 比 效 应 量 和 了 P 值 (48 | 


来 评估 综合 的 结果 。 基 于 对 同 质 性 的 要 求 ， 它 主要 适用 于 重 现 试验 。 总 之 ， 元 分 析 中 
所 包含 的 研究 必须 满足 以 下 几 点 [135]: 

e 类 型 相同 ， 例 如 ， 正 式 实验 ; 

。 检验 假设 相同 ; 

。 处 置 的 度量 和 效应 结构 相同 ; 

。 报告 的 解释 性 因素 相同 。 

元 分 析 主 要 包括 以 下 三 个 步骤 [135]: 

(1) 确定 元 分 析 包 含 哪 些 研究 。 

(2) 从 原始 研究 报告 中 提取 效应 量 ， 或 者 在 没有 公布 效应 量 时 对 其 进行 估算 。 

(3) 结合 这 些 原 始 研究 的 效应 量 来 评测 联合 效应 。 

除了 上 面 提 到 的 原始 研究 的 选择 规程 之 外 ， 元 分 析 还 应 包括 对 发 表 偏 倚 的 分 析 。 
如 图 4-1 所 示 的 倒 漏 斗 图 ， 这 里 观察 到 的 效应 量 是 对 照 研 究 规模 的 度量 值 来 绘制 的 ， 
例如 方差 的 倒数 或 者 其 他 离散 度量 值 (参见 10. 1.2 部 分 )。 当 一 组 原始 研究 完成 时 ， 
其 数据 点 分 布 在 一 个 漏斗 形状 周围 。 漏 斗 中 的 裂缝 表明 有 些 研 究 还 没有 发 表 或 者 没有 
被 找到 。 





-1 0 1 2 3 4 效应 量 
图 4-1 12 个 假设 研究 的 倒 漏斗 图 示例 


效应 量 是 一 个 指示 器 ， 独 立 于 各 原始 研究 中 所 用 的 单位 或 尺度 。 它 依赖 于 研究 类 
型 ; 但 通常 采用 每 个 处 置 的 平均 值 之 差 。 这 个 度量 值 必须 标准 化 以 便于 不 同 尺度 之 间 
的 比较 ， 也 就 是 说 要 除 以 合并 标准 差 [135]. 

由 于 该 分 析 假 设 各 研究 是 同 质 的 ， 因 此 可 以 采用 一 个 固定 的 效应 模型 。 元 分 析 通 
过 计算 每 个 研究 的 效应 量 的 均值 来 估 测 真实 的 效应 量 。 为 了 保证 模型 条 件 得 到 满足 ， 
应 采用 如 Q 检验 和 似 然 比 检验 等 检验 方法 来 识别 异 质 性 。 

对 于 异 质 数据 ， 可 以 采用 随机 效应 模型 ， 允 许 存在 未 知 因素 导致 的 变化 ， 该 变化 
会 影响 原始 研究 的 效应 量 。 该 模型 提供 了 两 种 估算 ,一 种 是 抽样 误差 估算 ， 这 和 固定 
效应 模型 一 样 ; 一 种 是 对 异 质 子 总 体 中 变化 的 估算 。 

数据 综合 分 析 的 弱 形式 化 方法 有 描述 性 或 叙述 性 综合 分 析 。 这 些 方法 以 更 加 突出 
研究 问题 的 方式 来 表格 化 原始 研究 中 的 数据 。 作 为 表格 化 数据 的 最 低 要 求 ，Kitchen- 
ham 和 Charters 提出 了 以 下 几 点 [96] : 
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。 每 个 干预 的 样本 大 小 ; 

。 每 个 干预 的 效应 量 佑 算 及 每 个 效应 的 标准 误差 ; 

。 每 个 干预 平均 值 之 差 ， 以 及 这 个 差 值 的 置信 区 间 ; 

。 度量 效应 的 单位 。 

统计 结果 可 以 用 森林 图 来 展示 。 和 森林 图 可 以 展现 每 个 研究 的 处 置 之 差 的 均值 和 方 
差 。 图 4-2 为 一 个 森林 图 的 例子 。 
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研究 2 一 一 本 一 

研究 3 -mE 
-0.2 -0.1 0 0.1 0.2 0.3 
有 利于 控制 有 利于 干预 


图 4-2 三 个 假设 研究 的 森林 图 示例 


综合 分 析 非 同 质 研究 和 混合 方法 研究 需要 定性 方法 。Cruzes 和 Dyb& [39] 调查 了 
软件 工程 中 的 二 次 研究 ， 包 括 经 验证 据 的 综合 分 析 。 他 们 找到 了 多 种 综合 分 析 方 法 ， 
很 多 来 源 于 医学 并 且 其 中 有 七 种 方法 已 用 于 软件 工程 。 下 面 简要 介绍 这 些 方法 。 详 细 
内 容 参 见 Cruzes 和 Dyb& [39] 及 相关 文献 。 

e 专题 分 析 (Thematic analysis) 是 一 种 旨 在 从 原始 研究 中 识别 、 分 析 和 报告 模式 

或 主题 的 方法 。 它 至 少 应 组 织 和 呈现 出 数据 丰富 的 细节 ， 并 解释 被 研究 主题 的 
各 个 方面 。 

o 叙述 性 综合 分 析 (Narrative synthesis) ， 上 文 已 提 到 该 方法 ， 它 讲述 了 一 个 源 于 
原始 证 据 的 “故事 ”。 它 采用 诸如 数据 表格 化 、 分 组 和 聚 类 、 点 票 方法 等 作为 
描述 性 工具 ， 将 原始 证 据 和 解释 结构 人 化。 叙述 性 综合 分 析 适 用 于 有 定性 或 定量 
数据 ， 或 二 者 兼备 的 研究 。 
比较 分 析 (Comparative analysis) 由 在 分 析 复 杂 的 因果 关系 。 它 用 布尔 逻辑 来 
解释 原始 研究 中 的 因果 关系 。 分 析 列 出 每 个 原始 研究 中 的 必要 和 充分 条 件 ， 并 
且 根 据 每 个 研究 中 独立 变量 的 存在 /不 存在 情况 得 出 结论 。 这 类 似 于 Noblit 和 
Hare [127] 的 参数 综合 分 析 方 法 ， 参 见 Kitchenham 和 Charters [96], 
案例 调查 (case survey) 最 初 为 案例 研究 而 定义 ， 但 也 可 适用 于 非 同 质 性 的 实 
仿 。 它 通过 将 具体 问题 的 调查 工具 应 用 于 每 一 个 原始 研究 来 聚合 已 有 研究 
[114] ， 这 类 似 于 上 文 提 到 的 数据 提取 。 调 查获 得 的 是 量化 数据 ， 因 此 聚合 可 
以 采用 统计 方法 进行 [108]. 
© 元 人 种 学 (Meta-ethnography) 将 研究 进行 相互 转换 ， 然 后 将 转换 综合 为 超越 个 

体 研究 的 概念 。 元 人 种 学 研究 将 原始 研究 中 的 解释 和 说 明 作为 输入 数据 。 这 类 
似 于 Noblit 和 Hare [127] 的 “相互 转换 ”和 “驳斥 性 综合 ”， 参 见 Kitchen- 
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ham 和 Charters [96 ] , 
元 分 析 (Meta-analysis) ， 如 之 前 所 提 到 ， 元 分 析 是 基于 统计 方法 集成 来 自 多 个 
案例 的 定量 数据 。 
概括 分 析 (Scoping analysis) 引 在 给 出 某 个 领域 研究 的 一 个 概貌 ， 而 不 是 去 综 
合 分 析 各 研究 成 果 。 概 括 分 析 也 被 称 为 映射 研究 ， 详 情 参 见 4.4 节 。 

不 同 于 综合 分 析 方 法 ， 敏 感性 分 析 主 要 分 析 不 同 研究 子 集 的 结果 是 否 一 致 。 比 如 ， 
研究 子 集 可 以 是 只 考虑 高 质量 的 原始 研究 ， 特 定 类 型 的 原始 研究 ， 或 者 有 良好 研究 报 
E (给 出 所 有 需要 的 细节 ) 的 原始 研究 。 


4.3 撰写 综述 报告 


和 其 他 经 验 型 的 研究 一 样 ， 系 统 文献 综述 也 需要 撰写 报告 给 不 同 的 读者 。 尤 其 是 
当 综 述 的 目的 是 为 了 影响 从 业 人 员 时 ， 报 告 的 格式 必须 适合 读者 的 需要 。Kitehenham 
和 Charters [96] 列 出 了 传播 给 目标 从 业 人 员 的 以 下 几 种 方式 。 

(1) 面向 从 业 人 员 的 期 刊 和 杂志 ; 

(2) 大 众 新 闻 稿 和 专业 媒体 ; 

(3) 简短 摘要 的 传单 ; 

(4) 海报 ; 

(5) 网 页 ; 

(6) 直接 与 受 影响 对 象 沟 通 。 

对 于 学 术 读 者 ， 对 研究 规程 的 详细 报告 是 评估 和 评价 该 系统 文献 综述 质量 的 关键 。 
理想 情况 下 ， 报 告 应 包含 研究 方案 的 变化 、 被 选 人 和 被 排除 的 原始 研究 的 完整 列表 、 
分 类 数据 ， 以 及 源 于 每 个 原始 研究 的 原始 数据 。 如 果 由 于 篇 幅 限 制 无 法 发 表 所 有 的 细 
节 ， 建 议 在 线 发 布 一 个 支持 技术 报告 。Kitchenham 和 Charters [96] 提出 了 一 个 学 术 报 
告 的 详细 结构 。 


4.4 映射 研究 


如 果 文 献 综 述 的 研究 问题 较为 宽泛 或 者 对 该 研究 领域 的 探讨 较 少 ， 则 应 采用 映射 
研究 而 不 是 系统 文献 综述 。 映 射 研究 [131] 有 时 也 称 为 概括 研究 [96 ] ， 它 为 某 类 研 
究 搜 索 更 广泛 的 领域 ， 以 得 到 某 主题 的 当前 技术 发 展 水 平 或 实践 水 平 的 概况 。 

映射 研究 与 系统 文献 综述 遵从 同样 的 原则 性 过 程 ， 但 是 对 文献 的 选择 以 及 文献 质 
量 评估 有 不 同 的 标准 。 由 于 其 范围 更 广 、 研 究 类 型 更 多 样 ， 与 系统 文献 综述 相 比 收集 
的 数据 与 综合 往往 更 趋 于 定性 化 。 然 而 ， 对 于 映射 研究 的 贡献 和 相关 性 来 说 ， 重 要 的 
是 分 析 超 出 了 单纯 的 描述 性 统计 ， 而 是 将 趋势 和 观察 与 现实 世界 的 需求 相 结合 。 

Kitchenham 等 人 [106] 总 结 了 一 个 映射 研究 与 系统 文献 综述 的 主要 特征 对 比 表 ， 
见 表 4-1。 
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SLR 元 素 系统 映射 研究 站 系统 文献 综述 
针对 软件 工程 选 题 的 文献 分 类 种 专 题 | 。 聚合 来 自 比较 研究 的 信息 ， 识 别针 对 特定 规 
分 析 N 程 、 技 术 、 方 法 或 工具 的 最 佳 实践 
通用 韵 一 “与 研究 趋势 有 关 。 


具体 的 一 一 与 经 验 研究 的 结果 有 关 。 形 式 











研究 问题 形式 有 : 哪些 研究 者 、 多 少 活动 、 什 么 类 
cog 有 : 技术 /方法 A 是 否 比 B 好 ? 
WE italiane 由 研究 问题 定义 ， 研 究 问题 确定 被 调研 的 具 
BER O OOo 
PE AE SENATA 
广泛 一 一 包括 所 有 与 主题 领域 相关 的 论 | OE 
辖 域 二 着 二 三 二 三才 天 类 和 jn 











非常 严格 一 一 所 有 相关 研究 都 应 该 被 找到 。 
通常 不 严格 ， 只 关心 研究 趋势 。 比 如 作 | 通常 ， 系 统 文献 综述 小 组 不 仅 要 检索 数据 源 ， 
检索 策略 要 求 者 可 以 只 检索 一 组 目标 出 版 物 ， 可 以 限制 | 还 需要 其 他 技术 ， 如 查看 原始 研究 的 参考 文 
为 期 刊 论文 ， 或 1 ~2 个 数字 图 书馆 献 、 接 触 该 领域 的 研究 人 员 来 了 解 他 们 是 否 在 
该 领域 开展 新 的 研究 





非 必 须 。 理 论 研 究 和 各 类 经 验 研究 的 复 P TEM 
质量 评价 杂 性 导致 评估 很 复杂 很 重要 ， 要 确保 结果 是 基于 高 质量 网 和 证 据 


一 








对 一 组 关于 某 主题 领域 的 论文 进行 不 同 | 。 聚合 所 有 原始 研究 的 成 果 来 回答 特定 的 研究 
结果 维度 的 分 类 ， 以 及 对 各 分 类 中 论文 的 数量 | 问题 ， 可 能 带 有 限制 (比如 结果 只 适用 于 初 
进行 计数 学 者 ) 








4.5 综述 举例 


Kitchenham 等 人 报告 软件 工程 领域 在 2004 -2008 年 间 发 表 了 53 篇 系统 文献 综述 
[103，104] 。 他 们 得 出 的 结论 是 ， 系 统 文献 综述 的 发 表 数 量 在 增长 ， 并 且 综 述 的 质量 
也 呈 上 升 趋势 ， 同 时 也 发 现 ， 在 意识 到 并 使 用 系统 指南 来 撰写 的 综述 和 没有 考虑 参考 
任何 指南 撰写 的 综述 之 间 仍 然 存在 很 大 的 差别 。 

在 这 些 系统 文献 综述 中 ，Sjaberg 等 人 [161] 调查 了 在 软件 工程 领域 进行 的 实验 
研究 。 他 们 检索 了 从 1993 ~ 2002 年 这 十 年 间 的 九 个 期 刊 和 三 个 会 议 集 ， 浏 览 了 5453 
篇 文章 找到 了 103 个 实验 ， 即 1.9% 的 论文 做 了 实验 。 根 据 Glass 等 人 的 框架 [63], 
进行 实验 最 频繁 的 两 个 研究 类 别 是 软件 生命 周期 /工程 (49% ) 和 方法 /技术 (32% ) 。 
这 是 因为 大 量 实验 分 别 集中 在 审查 技术 和 面向 对 象 的 设计 技术 上 。 

运用 同一 组 原始 研究 ，Dyba 等 人 [49] 综述 了 软件 工程 实验 中 的 统计 能 力 ，Han- 
nay 等 人 [72] 综述 了 软件 工程 中 理论 的 应 用 。Dieste 等 人 [43] 调查 了 同一 组 研究 
中 不 同 的 搜索 策略 ， 比 如 是 否 应 该 搜索 标题 、 摘 要 或 全 文 ， 以 及 应 该 搜索 哪些 相关 的 
文献 数据 库 。 

Hayes [74] 和 Miller [121] 较 早 地 尝试 综合 分 析 了 五 个 关于 审查 技术 的 实验 ， 
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结果 表明 该 领域 的 软件 工程 实验 在 统计 元 分 析 方 面 并 不 是 足够 同 质 的 。 他 们 还 认为 对 
元 分 析 而 言 ， 原 始 数据 必须 可 用 ， 同 样 来 源 于 原始 研究 作者 的 其 他 未 发 布 信息 也 应 公 
开 提 供 。 


在 最 近 的 一 个 关于 结对 编程 有 效 性 的 文献 综述 里 ，Hannay 等 人 [73] 对 18 个 原 


始 研 究 中 的 数据 进行 了 元 分 析 。 他 们 报告 了 针对 结果 的 三 个 组 成 部 分 : 质量 、 时 间 和 和 
工作 量 的 独立 分 析 情 况 ， 并 使 用 森林 图 可 视 化 了 该 结果 。 


4.6 练习 


4.1 系统 文献 综述 和 通用 文献 综述 的 区 别 是 什么 ? 

4.2 针对 原始 研究 的 检索 策略 有 哪些 ? 

4.3 为 什么 两 位 研究 者 在 进行 系统 文献 综述 时 要 采用 一 些 相同 的 步骤? 
4.4 在 原始 研究 上 进行 元 分 析 应 具备 什么 样 的 要 求 ? 

4.5 系统 文献 研究 和 映射 研究 的 核心 差别 是 什么 ? 
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Experimentation in Software Engineering 


案例 研究 





“案例 研究 ”这 个 术语 在 软件 工程 领域 论文 的 标题 和 摘要 中 很 常见 。 现 在 很 多 研 
究 ， 从 雄心 勃勃 、 组 织 良好 的 实地 研究 ， 到 小 如 玩具 的 示例 都 号 称 为 案例 研究 。 但 后 
者 更 宜 称 为 示例 。 对 研究 的 分 类 也 存在 不 同 的 分 类 体系 ， 通 常 认为 案例 研究 与 实地 研 
究 、 观 察 性 研究 等 术语 相近 ， 关 注 的 是 研究 方法 学 的 特定 方面 。 如 ，Lethbridge 等 人 将 
实地 研究 作为 更 通用 的 术语 [111], Easterbrook 等 人 则 称 案例 研究 是 “五 大 研究 方 
法 ”之 一 [50] 。Zelkowitz 和 Wallace 为 了 区 别 于 其 他 领域 已 有 的 术语 ， 将 项 目 监控 、 
案例 研究 和 实地 研究 都 归 为 观察 法 [181] 。 当 我 们 试图 汇集 多 种 经 验 研 究 方法 时 ， 这 
些 过 多 的 术语 容易 引起 混淆 。 

很 多 类 型 的 软件 工程 研究 ， 只 要 被 研究 对 象 是 当前 存在 的 且 难 以 孤立 出 来 进行 研 
究 ， 都 可 以 采用 案例 研究 的 方法 。 案 例 研究 不 会 产生 和 受 控 实验 一 样 的 结果 ， 如 因果 
关系 等 ， 但 它 可 以 让 我 们 对 真实 环境 中 的 现象 有 更 深入 的 理解 。 正 因为 与 分 析 型 、 受 
控 的 经 验 研究 不 同 ， 案 例 研究 总 被 批评 为 价值 小 、 无 法 泛 化 、 带 有 研究 者 偏颇 性 等 。 
但 如 果 在 实践 中 能 采用 合适 的 研究 方法 ， 并 接受 “知识 不 仅 是 统计 学 意义 的 ”的 观 
点 ， 则 上 述 批判 就 不 是 问题 了 [59，109]。 

本 章 的 目的 是 为 实施 案例 研究 的 研究 者 提供 一 些 指南 。 本 章 内 容 基于 Runeson 和 
Host [145] 的 研究 ， 更 多 关于 软件 工程 领域 案例 研究 的 阐述 可 以 查阅 Runeson 等 人 的 
研究 [146] 。 具 体 来 讲 ， 我 们 通过 对 现 有 检查 单 [79, 145] 进行 系统 化 分 析 ， 给 出 
一 个 新 的 检查 单 ， 之 后 由 博士 生 和 国际 软件 工程 研究 网 络 (International Software Engi- 
neering Research Network) 组 织 的 成 员 进行 评估 ， 并 进行 相应 的 更 新 。 

本 章 对 于 什么 是 软件 工程 中 “好 ”的 案例 研究 没有 提供 绝对 的 定义 ， 而 是 更 关注 
一 系列 有 助 于 提高 研究 质量 的 话题 。 对 每 个 话题 的 最 低 要 求 是 根据 其 使 用 环境 来 决定 
的 ， 并 且 很 可 能 随 着 时 间 的 推移 而 变化 。 

本 章 的 主要 内 容 如 下 。 首 先 , 5.1 节 介 绍 了 案例 研究 的 使 用 环境 ， 讨 论 了 在 软件 工 
程 中 使 用 案例 研究 的 动机 ， 并 定义 了 案例 研究 过 程 。5. 2 节 讨 论 了 案例 研究 的 设计 和 
数据 收集 的 计划 。5. 3 节 介绍 了 数据 收集 的 具体 过 程 。5. 4 节 讨 论 数据 分 析 ， 所 得 结果 
的 报告 在 5. 5 节 中 讨论 。 


5.1 案例 研究 的 使 用 环境 


案例 研究 的 三 个 最 常见 的 定义 分 别 是 由 Robson [144], Yin [180], Benbasat 
[22] 等 人 提出 的 。 这 三 个 定义 一 致 认为 ， 案 例 研究 是 针对 真实 环境 中 当前 存在 的 某 
种 现象 进行 调查 研究 的 一 种 经 验方 法 。Robson 称 其 为 一 种 研究 策略 ， 并 强调 了 分 析 时 





对 多 种 来 源 证 据 的 使 用 ; Yin 表示 案例 研究 是 一 种 调查 ， 并 指出 被 研究 现象 与 其 存在 
环境 之 间 的 边界 是 不 清晰 的 ; 而 Benbasat 等 人 的 定义 更 加 具体 ， 认 为 信息 是 从 少量 实 
体 (A, FR, WR) 收集 得 到 ， 并 且 缺 乏 实验 控制 。 

行动 研究 与 案例 研究 密切 相关 ， 因 为 前 者 的 目的 是 “影响 或 改变 研究 所 关注 的 某 
些 方面 ”[144] 。 更 严格 地 讲 ， 案 例 研 究 是 纯 观察 性 的 ， 而 行动 研究 关注 并 参与 变化 
过 程 。 在 软件 过 程 改 进 [44, 85] 和 技术 转移 研究 [66] 中 ， 如 果 研 究 者 积极 参与 改 
进 过 程 ， 那 么 研究 方法 就 是 行动 研究 。 不 过 ， 在 研究 变化 带 来 的 影响 时 ， 例 如 进行 事 
前 分 析 和 事后 分 析 时 ， 我 们 将 用 到 的 方法 归 为 案例 研究 。 在 信息 系统 研究 中 ， 行 动 研 
究 十 分 常用 ， 因 此 也 就 有 了 关于 如 何 寻 找 行动 和 研究 间 平 衡 的 探讨 ， 参 见 Baskerville 
和 Wood - Harper [21] 或 Avison 等 人 [5] 的 研究 。 对 于 行动 研究 的 研究 部 分 ， 案 例 
研究 的 指南 同样 适用 。 

Easterbrook 等 人 [50] 把 民族 学 研究 也 作为 主流 研究 方法 之 一 。 我 们 更 倾向 于 将 
民族 学 研究 视 作 一 种 关注 于 文化 习俗 的 特殊 案例 研究 [50], 或 者 依托 于 大 量 参 与 
者 -观察 者 数据 的 长 期 持续 性 研究 [98], Zelkowitz 和 Wallace 定义 了 软件 工程 领域 的 
“四 大 观察 法 ”[181]: 项 目 监控 、 案 例 研 究 、 断 言 和 实地 研究 。 我 们 倾向 于 将 项 目 监 
控 视 为 案例 研究 的 一 部 分 ， 将 实地 研究 视 为 多 案例 研究 ， 而 断言 则 不 是 一 个 公认 的 研 
究 方 法 。 

Robson 总 结 出 的 观点 “许多 柔性 的 设计 研究 ， 虽 然 没 有 明确 标示 ， 但 同样 可 以 有 
效 地 视 为 案例 研究 ”[144] ， 在 软件 工程 领域 内 同样 适用 。 

案例 研究 可 能 包含 其 他 研究 方法 的 一 些 元 素 ， 例 如 ， 案 例 研 究 中 可 能 会 采用 调查 
的 方法 ， 文 件 检索 往往 是 案例 研究 的 先行 工作 ， 档 案 分 析 也 可 能 是 案例 研究 中 数据 收 
集 过 程 的 一 部 分 。 一 些 民族 学 研究 的 方法 ， 例 如 访谈 、 观 察 等 ， 也 常 在 案例 研究 的 数 
据 收 集 阶段 使 用 。 

Yin 对 案例 研究 的 特点 做 了 一 些 具体 的 补充 [180]: 

e 处 理 一 些 技术 上 的 特殊 情况 ， 即 变量 远 多 于 数据 点 ， 且 得 到 一 个 结果 。 

o 依赖 于 多 证 据 源 ， 并 需 将 数据 汇集 为 三 角 剖 分 形式 (Triangulating Fashion) 或 

其 他 形式 。 

。 利用 之 前 已 得 到 认可 的 理论 命题 来 指导 数据 的 收集 和 分 析 。 

因此 ， 案 例 研究 永远 不 会 提供 具有 统计 显著 性 的 结论 。 相 反 是 由 各 种 不 同 种 类 的 
证 据 、 图 表 、 报 表 、 文 档 连 接 在 一 起 ， 支 撑 着 一 个 强大 而 具有 相关 性 的 结论 。 

总 而 言 之 ， 案 例 研 究 的 主要 特点 有 [146]: 

(1) 它 是 一 种 柔性 的 研究 方法 ， 用 于 处 理 真实 世界 中 具有 复杂 、 动 态 特 点 的 现 
象 ， 如 软件 工程 ; 

(2) 其 结论 基于 清晰 的 证 据 链 ， 无 论 是 定性 还 是 定量 的 ， 都 是 以 规划 好 且 一 致 的 
方式 从 多 个 证 据 源 获得 ; 

(3) 基于 已 建立 的 理论 补充 或 建立 新 的 理论 补充 已 有 知识 。 
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5.1.1 为 何 要 在 软件 工程 中 使 用 案例 研究 


软件 工程 领域 包括 软件 及 其 相关 制品 的 开发 、 运 行 和 维护 。 软 件 工程 研究 很 大 程 
度 上 是 在 调研 软件 工程 师 和 不 同 背 景 下 的 其 他 利益 相关 者 是 如 何 来 进行 开发 、 运 行 和 
维护 工作 的 。 无 论 是 个 人 、 团 队 还 是 组 织 进行 软件 开发 ， 社 会 和 政治 问题 对 其 都 非常 
重要 。 也 就 是 说 ， 软 件 工程 是 一 门 交叉 学 科 ， 涉 及 领域 和 案例 研究 一 致 ， 如 心理 学 、 
社会 学 、 政 治学 、 社 会 工作 、 商 业 及 社区 计划 〈 例 如 [180])。 这 意味 着 软件 工程 的 
很 多 研究 问题 都 适用 于 案例 研究 。 

2. 1 节 对 案例 研究 的 定义 强调 了 是 对 真实 环境 中 的 现象 进行 研究 ， 尤 其 是 在 现象 
与 其 存在 环境 之 间 的 边界 不 清晰 时 。 而 在 软件 工程 中 往往 就 是 这 样 的 。 软 件 工程 中 的 
实验 清楚 地 表明 有 许多 因素 都 影响 着 软件 工程 活动 的 输出 结果 ， 例 如 2.6 节 中 的 重 现 
研究 。 案 例 研 究 提供 了 一 种 不 需要 严格 划分 被 研究 对 黎 与 它 所 处 环境 的 研究 方法 ; 也 
许 ， 理 解 的 关键 就 在 于 这 两 者 间 的 相互 作用 ? 


5. 1.2 案例 研究 过 程 


进行 案例 研究 有 以 下 5 个 主要 的 过 程 步 又 。 

(1) 案例 研究 设计 : 定义 研究 目标 ， 制 定 研究 计划 。 

(2) 准备 数据 收集 : 定义 数据 收集 的 规程 与 协议 。 

(3) 数据 收集 : 在 所 研究 的 案例 内 进行 数据 收集 。 

(4) 数据 分 析 。 

(5) 撰写 报告 。 

这 个 过 程 与 几乎 任意 一 种 经 验 研究 方法 都 基本 相同 ， 如 针对 实验 方法 ,第 6 章 的 
实验 过 程 概述 、 第 7 ~ 11 章 关于 实验 的 详细 阐述 以 及 Kitchenham 等 [98] 方法 。 不 
过 ,案例 研究 方法 是 一 种 柔性 的 设计 策略 ， 有 大 量 的 迭代 步骤 [2]。 数 据 收集 和 分 析 
都 可 以 增 量 式 进 行 。 如 果 没 有 收集 到 足够 的 数据 进行 分 析 ， 就 需要 计划 再 次 进行 数据 
收集 等 。Eisenhardt 描述 了 从 案例 研究 建立 理论 的 过 程 ， 她 在 步骤 4 和 步骤 5 之 间 加 上 
了 两 步 [52] : 即 形成 假设 和 整理 文献 ， 其 他 概念 与 本 文 所 述 基本 一 致 。 

案例 研究 过 程 的 5 个 步骤 在 5. 2 ~5.5 节 详 细 陈 述 ， 其 中 数据 收集 的 准备 和 收集 过 
程 在 5. 3 节 一 起 介绍 。 


5.2 设计 和 计划 


案例 研究 是 一 种 柔性 研究 方法 ， 但 这 并 不 意味 着 就 不 需要 计划 了 。 相 反 ， 好 的 计 
划 对 案例 研究 的 成 功 至 关 重 要 。 有 很 多 问题 需要 计划 ， 如 采用 什么 方法 收集 数据 、 访 
问 组 织 的 哪些 部 门 、 阅 读 哪 些 文档 、 访 谈 哪 些 人 、 访 谈 的 频率 ， 等 等 。 这 些 计 划 可 以 
在 案例 研究 的 协议 中 阐述 , 详 见 5. 2.2 节 。 





5.2.1 案例 研究 计划 


一 个 案例 研究 的 计划 至 少 应 该 包含 以 下 要 素 [144]. 

e 目标 : 要 实现 什么 ? 

© 案例 : 要 研究 什么 ? 38 

e 理论 : 参考 框架 。 

。 研究 问题 : 需要 知道 什么 ? 

© 方法 : 如 何 收集 数 据 ? 

© 选择 策略 : 到 哪里 寻找 数据 ? 

案例 研究 的 目标 可 能 是 探索 型 、 描 述 型 、 解 释 型 或 改进 型 的 。 目 标 自 然 更 具 通 
用 性 ， 没 有 确定 性 研究 设计 那样 明确 。 目 标 最 初 更 像 是 一 个 关注 点 ， 随 着 研究 的 进 
行 而 演化 。 研 究 问题 阐述 为 了 实现 研究 目的 而 需要 知道 的 内 容 。 与 目标 相似 ， 研 究 
问题 也 是 在 分 析 过 程 中 不 断 发 展 的 ， 它 在 分 析 过 程 中 通过 迭代 最 终 收敛 到 具体 的 研 
究 问 题 [2] 。 

在 软件 工程 领域 ,案例 可 以 是 一 个 软件 开发 项 目 ， 这 是 最 直接 的 选择 。 除 此 之 外 ， 
案例 也 可 能 是 一 个 独立 的 个 体 、 一 组 人 群 、 一 个 过 程 、 一 个 产品 、 一 条 政策 、 组 织 
的 一 个 角色 、 一 个 事件 或 者 一 项 技术 等 。 项目、 个 人 或 者 小 组 也 可 以 构成 一 个 案例 中 
的 分 析 单 元 。 类 似 于 “玩具 程序 ”的 研究 当然 会 因为 缺乏 真实 的 环境 而 被 排除 。 

Yin [180] 区 分 了 整体 性 案例 研究 和 内 人 式 案例 研究 ， 前 者 将 案例 作为 一 个 整体 
来 研究 ， 后 者 则 对 同一 案例 中 的 多 个 分 析 单 元 进行 研究 ， 详 见 图 5-1。 那 么 对 于 一 项 包 
括 两 个 案例 的 研究 ， 我 们 应 该 采取 哪 种 方法 呢 ? 这 取决 于 具体 的 研究 情境 和 研究 目标 。 
比如 ， 要 研究 的 两 个 项 目 分 别 在 两 家 不 同 的 公司 、 两 个 不 同 的 领域 ， 都 使 用 敏捷 开发 。 
这 时 ， 如 果 研 究 情 境 是 普通 软件 公司 ， 研 究 目 标 是 研究 敏捷 方法 的 实践 ， 那 么 该 项 目 
可 以 作为 一 个 舰 入 式 案例 研究 中 的 两 个 分 析 单 元 。 而 如 果 研 究 情 境 是 特定 公司 或 特定 
应 用 领域 ,那么 它们 应 被 看 作 两 个 独立 的 整体 性 案例 。 

















图 5-1 整体 性 案例 研究 (E) AURA TSE A) 


在 软件 工程 领域 ,依靠 理论 来 发 展 研究 方向 的 方式 尚 不 成 熟 ， 详 见 2.7 章 。 但 是 ， 
定义 研究 的 参考 框架 可 以 使 案例 研究 的 脉络 清晰 ， 有 助 于 分 析 的 进行 及 分 析 结 果 的 评 
审 。 如 果 缺 少 理论 支撑 ， 也 可 以 用 分 析 中 获取 的 观点 和 研究 人 员 的 背景 知识 作为 参考 [59 | 
框架 。 自 然 ， 基 于 理论 的 案例 研究 并 不 特 指 某 种 理论 [38]. 
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案例 研究 中 ， 尽 管 数据 采集 步骤 的 细节 是 在 后 期 决定 ， 但 数据 采集 方法 却 是 在 设 


计 阶 段 确定 的 。Lethbridge 等 人 [111] 将 数据 采集 方法 分 为 三 类 : 直接 采集 (如 访 
谈 ) 、 间 接 采 集 (如 工具 ) 和 独立 采集 (如 文档 分 析 ) 。 具 体 细 节 将 在 5. 3 节 进 一 步 
阐述 。 


在 案例 研究 中 ， 应 有 目的 地 选择 案例 和 分 析 单 元 。 这 不 同 于 调查 和 实验 研究 。 调 
查 和 实验 的 主体 是 从 总 体 中 采样 得 到 ， 目 的 是 要 保证 研究 结果 的 普 适 性 。 而 在 案例 研 
究 中 ， 更 期 望 案例 的 选择 具有 “典型 性 ”“ 关 键 性 ”“ 启 发 性 "， 或 者 在 某 些 方面 是 
“独特 的 ”[22] ， 并 据 此 选择 案例 。 对 于 比较 性 案例 研究 ， 必 须 选 择 在 该 分 析 所 关注 
的 属性 上 有 变量 的 分 析 单元 。 但 是 实际 执行 中 ,案例 研究 的 选择 却 和 实验 的 选择 
[161] 类 似 , 许多 案例 是 基于 可 获得 性 [22] 进行 选择 的 。 

当 要 重复 一 个 案例 研究 时 ， 案 例 的 选择 尤为 重要 。 所 谓 准确 地 重复 一 个 案例 研究 ， 
是 指 选 择 一 个 案例 去 预测 相似 的 结果 ; 否则 就 是 理论 上 的 重复 ， 也 即 由 于 可 预测 的 原 
因 选 择 一 个 案例 去 预测 有 差异 的 结果 [180] 。 


5.2.2 案例 研究 协议 


案例 研究 协议 包含 案例 研究 中 的 设计 决策 ， 以 及 研究 过 程 中 的 实施 规程 。 该 协议 
是 一 个 持续 更 新 的 文档 ， 每 当 案例 研究 计划 变动 时 它 都 会 随 之 更 新 。 该 协议 服务 于 如 
下 目的 。 

(1) 指导 数据 收集 ， 从 而 防止 研究 人 员 漏 掉 计划 要 收集 的 数据 。 

(2) 制定 协议 的 过 程 使 研究 在 计划 阶段 具体 化 ， 有 助 于 研究 人 员 决 定 选用 哪些 数 
据 源 、 问 哪些 问题 。 

(3) 其 他 研究 人 员 和 相关 人 士 可 以 通过 阅读 协议 对 计划 进行 反馈 。 举 例 来 说 ， 其 
他 研究 人 员 对 协议 的 反馈 可 以 降低 由 于 以 下 问题 带 来 的 风险 : 漏 掉 相关 数据 源 、 漏 掉 
访谈 问题 、 漏 掉 研 究 所 需 的 角色 、 忘 记分 析 研 究 问题 和 访谈 问题 之 间 的 关系 等 。 

(4) 可 以 作为 一 个 日 志 ， 记 录 所 有 的 数据 采集 和 分 析 ， 以 及 由 于 研究 本 身 的 灵活 
性 导致 的 决策 的 变化 情况 。 这 是 后 面 撰写 案例 研究 报告 时 重要 的 信息 来 源 。 为 了 跟踪 
研究 项 目 中 的 各 种 变化 ， 该 协议 应 采用 某 种 形式 的 版 本 控制 。 

表 5-1 总 结 了 Brereton 等 人 [25] 提出 的 一 个 案例 研究 协议 纲要 。 由 此 可 以 看 出 ， 

[60] 协议 在 细 粒 度 上 支持 一 个 良 结构 的 研究 方法 。 
表 5-1 Brereton 等 人 [25] 提出 的 案例 研究 协议 纲要 




















部 分 A g 
背景 前 期 研究 ， 主 要 和 附加 研究 问题 
设计 单个 或 多 个 案例 ， 嵌 入 式 或 整体 性 设计 ; 研究 对 象 ; 从 研究 问题 中 提取 出 的 命题 
选择 案例 选择 的 标准 

规程 和 角色 现场 过 程 ; 研究 团队 成 员 的 角色 








数据 收集 识别 数据 、 定 义 收 集 计 划 和 数据 存储 
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( 续 ) 

部 分 A 容 

分 析 解释 说 明 、 连 接 数据 和 研究 问题 、 替 代 性 解释 所 基于 的 准则 
计划 有 效 性 减 小 有 效 性 威胁 的 策略 

研究 限制 指出 还 存在 的 有 效 性 问题 

报告 目标 听众 
进度 安排 对 主要 步骤 的 估算 

附录 所 有 细节 信息 





5.3 数据 准备 和 数据 收集 


案例 研究 中 使 用 的 信息 有 几 种 不 同 的 来 源 。 为 了 减少 因数 据 源 单一 而 带 来 的 信息 
误差 ， 在 案例 研究 中 通过 多 种 来 源 收集 数据 变 得 非常 重要 。 如 果 同 样 的 结论 可 以 从 多 
个 信息 源 ( 如 三 角 训 分 法 ,将 在 6. 2 节 介 绍 ) 得 出 ,那么 这 个 结论 就 比 基 于 单一 信息 
源 的 结论 更 可 靠 。 在 案例 研究 中 ， 综 合 考虑 不 同 角 色 的 观点 、 探 究 诸如 不 同 项 目 和 产 
品 案例 之 间 的 差别 也 是 非常 重要 的 。 通 常 结论 可 以 通过 分 析 各 数据 源 信息 之 间 的 差异 
得 出 。 
根据 Lethbridge 等 人 的 研究 [111] ， 数 据 收集 技术 可 以 分 为 三 个 等 级 : 
。 第 一 等 级 : 直接 法 。 在 该 方法 中 ， 研 究 者 直接 接触 主体 ， 并 实时 收集 数据 。 访 
谈 、 观 察 组 、 德 尔 非 调 查 法 [40] 和 应 用 “出 声 思考 协议 ” [129] 的 观察 法 
均 属 于 这 一 等 级 。 
。 第 二 等 级 : 间接 法 。 该 方法 也 是 直接 收集 原始 数据 ， 但 在 数据 收集 期 间 ， 研 究 
者 不 与 主体 实际 接触 。 通 过 软件 工程 相关 工具 记录 日 志和 观察 视频 录像 就 是 这 
一 等 级 的 方法 。 
。 第 三 等 级 : 工作 制品 的 独立 分 析 。 工 作 制 品 均 已 可 用 ， 有 时 使 用 编制 成 册 的 数 
据 。 通 过 分 析 文 档 〈 比 如 来 自 机 构 的 需求 规格 说 明 书 和 故障 报告 ) 或 机 构 数据 
库 中 的 数据 〈 比 如 计时 数据 ) 来 收集 数据 的 方法 就 属于 这 一 等 级 。 
第 一 等 级 方法 的 实施 成 本 通常 要 高 于 第 二 等 级 或 第 三 等 级 方法 ， 因 为 它 要 求 研 究 
者 和 主体 都 要 付出 极 大 的 努力 。 第 一 和 第 二 等 级 的 方法 可 以 最 大 程度 地 控制 收集 哪些 
数据 、 如 何 收集 、 所 收集 数据 的 格式 以 及 所 收集 数据 的 上 下 文 ， 等 等 。 第 三 等 级 方法 
一 般 花 费 较 少 ， 但 是 不 能 同等 程度 地 控制 数据 收集 ， 因 此 数据 的 质量 不 能 得 到 有 效 控 
制 ， 原 始 数据 质量 也 不 可 控 ， 并 且 这 些 数据 对 当前 案例 研究 的 可 用 性 也 存在 不 确定 性 。 
在 许多 情况 下 ， 研 究 者 必须 基于 哪些 数据 可 用 ， 来 决定 数据 收集 的 细节 。 对 于 第 三 等 
级 方法 ， 还 应 该 注意 到 ， 由 于 数据 是 为 了 其 他 目的 收集 和 记录 的 ， 而 非 当 前 研究 的 目 
的 ， 因 而 不 符合 通用 度量 指南 [172]。 此 外 ， 采 集 数 据 时 对 数据 有 效 性 和 完整 性 的 需 
求 是 否 和 当前 研究 的 一 臻 也 是 不 确定 的 。 
在 5.3.1~5.3.4 节 中 ， 我 们 将 讨论 各 种 数据 收集 方法 ， 包 括 访谈 、 观 察 、 存 档 数 
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据 和 度量 标准 ， 这 些 方法 都 适用 于 软件 工程 案例 研究 [22, 146, 180]. 


5.3.1 访谈 


在 基于 访谈 的 数据 收集 过 程 中 ， 研 究 者 会 对 一 组 访谈 对 象 (EMS) 提出 一 系列 问 
题 ， 这 些 问 题 都 和 该 案例 感 兴趣 的 领域 相关 。 大 多 数 情况 下 ， 一 次 访谈 针对 一 个 单一 
主体 ， 但 也 可 以 进行 小 组 访谈 。 一 系列 访谈 问题 引导 研究 者 和 主体 之 间 的 谈话 。 

访谈 问题 是 基于 研究 问题 的 (尽管 表达 方式 不 同 )。 问 题 可 以 是 开放 性 的 ， 即 允 
许 并 邀请 访谈 对 象 在 宽泛 的 范围 内 回答 或 者 讨论 ; 也 可 以 是 封闭 性 的 ， 即 提供 一 组 答 
案 让 访谈 对 象 选 择 。 

访谈 可 以 分 成 非 结构 性 的 、 半 结构 性 的 和 全 结构 性 的 三 种 类 型 [144] 。 对 于 非 结 
构 性 访谈 ， 访 谈 问 题 来 自 于 研究 者 关心 或 者 感 兴趣 的 内 容 。 这 种 情况 下 ， 访 谈 内 容 会 
基于 访谈 对 象 和 研究 者 的 兴趣 意向 进行 。 对 于 全 结构 性 访谈 ， 所 有 问题 都 会 提前 设计 
好 并 按照 已 设计 的 顺序 进行 。 全 结构 性 访谈 在 很 多 方面 都 与 基于 问卷 的 调查 类 似 。 对 
于 半 结 构 性 访谈 ， 虽 然 问题 是 已 经 设计 好 的 ， 但 提问 顺序 可 以 随意 进行 。 访 谈 内 容 的 
进展 情况 可 以 灵活 决定 问题 顺序 ， 并 且 研 究 者 可 以 把 问题 列表 作为 一 个 检查 列表 ,来 
确保 所 有 问题 都 已 经 被 提问 ， 即 和 检查 列表 类 似 。 在 案例 研究 中 ， 半 结构 化 访谈 是 最 
常用 的 一 种 ， 因 为 它 允 许 访谈 对 象 即兴 发 挥 和 探索 。 三 种 访谈 方式 在 表 5-2 中 进行 了 
总 结 。 


表 5-2 访谈 类 型 总 结 




















非 结构 性 访谈 半 结构 性 访谈 全 结构 性 访谈 
访谈 焦点 | 定性 的 回答 定性 和 定量 的 回答 | 寻找 结构 间 的 关系 
访谈 问题 | 在 关注 点 的 引导 下 进行 | 开放 性 和 封闭 性 问题 | 封闭 性 问题 









访谈 目的 描述 和 解释 型 描述 与 解释 型 





访谈 过 程 可 以 分 为 几 个 阶段 。 首 先 ， 研究 者 提供 访谈 和 案例 研究 的 目的 ， 并 说 明 
将 如 何 使 用 从 访谈 中 获得 的 数据 。 然 后 问 一 组 引导 式 问题 ， 如 主体 的 背景 情况 等 ; 相 
对 来 说 这 些 问 题 都 易于 回答 。 引 导 完 毕 后 ， 提 出 主要 的 访谈 问题 ， 这 个 过 程 占据 了 整 
个 访谈 的 绝 大 部 分 。 如 果 访 谈 涉及 个 人 问题 或 者 敏感 的 问题 ， 比 如 对 经 济 、 对 同事 的 
看 法 ， 某 些 事情 出 现 差错 的 原因 ， 或 者 涉及 被 访谈 者 个 人 能 力 的 问题 等 【80] ， 访 谈 
者 应 该 使 被 访谈 者 相信 访谈 的 保密 性 ， 同 时 还 要 确保 访谈 者 得 到 了 被 访谈 者 的 信任 。 
在 建立 信任 之 前 ， 不 建议 访谈 者 提 出 上 述 相 关 问 题 。 建 议 访谈 者 在 访谈 结束 前 对 此 次 
访谈 的 主要 收获 进行 总 结 ， 这 样 既 能 获得 反馈 ， 也 能 避免 不 必要 的 误解 。 

在 访谈 过 程 中 ， 建 议 采用 音频 或 者 视频 的 方式 记录 访谈 内 容 。 因 为 很 多 情况 下 ， 
记 笔 记 的 方式 不 可 能 记录 所 有 细节 ， 而 且 在 访谈 过 程 中 很 难 了 解 哪些 内 容 是 记录 重点 。 
访谈 过 程 被 记录 下 来 后 需要 转化 成 文本 用 于 分 析 。 某 些 情况 下 ， 经 过 访谈 对 象 审查 过 





的 文本 会 更 具 价 值 。 

在 访谈 研究 的 计划 阶段 就 应 确定 访谈 对 象 。 鉴 于 案例 研究 的 定性 性 质 ， 在 选择 访 
谈 对 象 时 ， 建 议 不 求 同 、 但 求 蜡 ， 如 5. 2 节 所 述 。 访 谈 的 多 样 性 意味 着 访谈 包括 不 同 
角色 、 不 同性 格 的 对 象 。 访 谈 对 象 的 数量 可 在 研究 过 程 中 确定 。 确 定 访谈 对 象 数量 是 
和 否 充分 的 一 个 标准 是 “饱和 ”， 也 就 是 说 当 加 入 新 的 访谈 对 象 时 ， 访 谈 不 会 得 到 更 多 
的 信息 或 观点 [38] 。 


5.3.2 观察 


为 了 调查 软件 工程 师 如 何 执行 某 个 特定 任务 ， 我 们 还 可 以 采用 观察 法 。 根 据 前 面 
的 分 级 标准 ， 该 方法 属于 第 一 或 第 二 等 级 的 方法 。 观 察 法 包括 很 多 具体 方法 ， 其 中 一 
种 是 用 摄像 机 记录 一 组 软件 工程 师 的 行动 ， 随 后 再 来 分 析 这 些 录像 ; 男 一 种 方法 是 应 
用 “出 声 思考 ”协议 ,在 整个 观察 过 程 中 ,研究 者 重复 地 问 问 题 (类 似 于 “你 有 什么 
策略 ” “你 正在 思考 什么 ”这 样 的 问题 ) 以 提醒 观察 对 象 出 声 思 考 。 这 种 方法 可 以 与 
记录 音频 和 击 键 的 方法 (由 Wallace [176] 等 人 支持 的 一 种 方法 ) 一 起 使 用 。 而 会 议 
中 的 观察 法 则 是 另 一 种 类 型 ， 参 与 人 员 可 以 通过 彼此 交流 来 获取 观察 对 象 的 信息 。 
Karahasanović 等 人 [93] 还 提出 了 另 一 种 方法 ,使 用 特定 的 采样 工具 来 收集 参与 者 的 
数据 和 反馈 。 

根据 研究 者 交互 程度 和 被 观察 者 感知 被 观察 的 程度 ， 可 以 将 观察 的 方法 分 为 四 类 ， 
详 见 表 5-3。 


表 5-3 观察 的 不 同方 法 
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被 观察 者 感知 被 观察 的 程度 高 被 观察 者 感知 被 观察 的 程度 低 
研究 者 交互 程度 高 第 1 类 | 第 2 类 
研究 者 交互 程度 低 第 3 类 第 4 类 


第 1 或 第 2 类 观察 法 通常 用 在 行动 研究 和 经 典 民族 学 研究 中 。 在 这 两 类 研究 中 ， 
研究 者 也 是 团队 成 员 ， 而 不 仅仅 是 其 他 团队 成 员 眼 里 的 研究 者 。 第 1 类 和 第 2 类 方法 
的 不 同 之 处 在 于 : 在 第 1 类 方法 中 ， 研 究 者 是 个 “观察 参与 者 ” ， 然 而 在 第 2 类 方法 中 
研究 者 则 更 多 地 被 看 作 “ 普 通 参与 者 ”。 在 第 3 类 方法 中 ， 研 究 者 只 是 个 研究 人 员 。 
一 般 说 来 ,第 3 类 观察 方法 使 用 第 一 等 级 的 数据 收集 技术 (比如 上 面 介绍 的 “出 声 思 
考 ” 协 议 ) MER 4 类 观察 法 中 则 更 多 地 使 用 第 二 等 级 技术 ， 比 如 视频 记录 法 (有 
时 又 称 为 影像 故事 法 ) 。 

观察 法 的 优点 是 : 可 以 得 到 对 研究 现象 的 深层 次 理解 。 但 这 样 的 理解 终究 是 由 观 
察 所 得 ， 也 不 免 令 人 质疑 “所 见 ” 与 “真实 ”之 间 是 否 存在 偏差 [142] 。 另 外 不 容 忽 
视 的 是 观察 法 会 产生 大 量 的 数据 ,对 这 些 数据 进行 分 析 需 要 消耗 大 量 的 时 间 。 
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5.3.3 ”归档 数据 


归档 数据 通常 是 指 组 织 中 的 会 议 时 间 、 不 同 开发 阶段 的 文档 、 故 障 数据 、 组 织 结 
构图 、 财 务 记录 ， 以 及 其 他 一 些 之 前 收集 的 度量 数据 。 

归档 数据 属于 案例 研究 中 收集 的 第 三 等 级 的 数据 。 配 置 管理 工具 是 归档 数据 的 重 
要 来 源 ， 因 为 它 能 收集 大 量 不 同类 型 、 不 同 版 本 的 文档 。 对 于 其 他 的 第 三 等 级 数据 ， 
需要 注意 的 是 这 些 文档 在 撰写 时 并 没有 计划 作为 研究 数据 使 用 。 尽 管 研究 人 员 可 以 通 
过 调查 最 初 收集 这 些 文件 的 目的 以 及 访问 组 织 中 的 有 关 人 员 来 获取 一 些 信息 ,但 是 依 
然 很 难 评 佑 这些 数 据 的 质量 。 


5. 3.4 度量 标准 


以 上 提 到 的 数据 收集 技术 大 多 关注 定性 数据 。 而 定量 数据 在 案例 研究 中 也 是 很 重 
要 的 。 案 例 研 究 中 ， 有 时 候 需要 从 头 定义 数据 并 据 此 去 收集 数据 ， 当 然 有 时 候 也 可 以 
使 用 现 有 数据 。 显 而 易 见 的 是 ， 前 者 有 更 大 的 灵活 性 ， 并 且 这 种 量 身 定制 的 方式 收集 
到 的 数据 更 能 满足 研究 问题 的 需要 。 决 定 收集 哪些 数据 应 该 依据 面向 目标 的 度量 技术 
(比如 目标 问题 度量 法 [11，172] ， 详 见 第 3 章 ) 而 定 。 

现 有 数据 的 例子 有 之 前 项 目的 工作 数据 、 产 品 销售 数据 、 以 失效 情况 描述 的 产品 
质量 度量 数据 等 ， 这 类 数据 也 许可 以 在 组 织 的 度量 标准 数据 库 中 获得 。 然 而 ， 需 要 注 
意 的 是 ， 研 究 者 既 不 能 控制 也 不 易 评 佑 数据 的 质量 ， 因 为 最 初 收集 这 些 数 据 是 为 了 其 
他 目的 ， 当 这 些 数据 用 于 不 同类 型 的 分 析 时 ， 极 有 可 能 缺失 一 些 重要 的 信息 。 


5.4 数据 分 析 


5.4.1 定量 数据 分 析 


针对 定量 和 定性 数据 所 采用 的 数据 分 析 方 法 也 是 不 同 的 。 对 于 定量 数据 ， 分 析 方 
式 通常 包括 描述 性 统计 分 析 、 相 关 性 分 析 、 建 立 预测 模型 和 假设 检验 。 所 有 这 些 方法 
都 可 用 于 案例 研究 。 定 量 数据 分 析 主 要 用 在 实验 环境 下 ， 详 见 第 10 章 。 

描述 性 统计 量 ， 如 平均 值 、 标 准 差 、 直 方 图 和 散 点 图 ， 可 用 于 理解 已 收集 的 数据 。 
相关 性 分 析 和 建立 预测 模型 是 为 了 描述 一 个 新 过 程 活动 的 度量 数据 与 之 前 过 程度 量 之 
间 的 相关 性 。 假 设 检验 是 为 了 确定 一 个 或 多 个 变量 (独立 变量 ) 对 一 个 或 多 个 其 他 变 
量 〈 非 独立 变量 ) 是 否 有 显著 性 影响 。 

应 当 注 意 的 是 ， 定 量 分 析 方 法 会 提前 假定 一 个 固定 的 研究 设计 。 例 如 ， 对 于 一 个 
答案 为 定量 数据 的 问题 ， 如 果 当 访谈 进行 到 一 半 时 间 题 被 更 改 ， 那 么 将 难以 解释 所 收 
集 到 数据 的 平均 值 。 此 外 ， 受 调查 者 或 测量 点 的 数量 限制 ,来自 单个 案例 的 定量 数据 
集 往往 非常 小 ， 这 需要 在 分 析 中 特别 关注 。 





5.4.2 定性 数据 分 析 


定性 分 析 的 基本 目标 是 从 数据 中 得 出 结论 ， 并 保持 证 据 链 清晰 。 证 据 链 意味 着 读 
者 能 够 理解 从 收集 的 数据 推导 出 结果 或 结论 的 过 程 [180] 。 这 意味 着 要 充分 地 列 出 研 
究 中 的 每 个 步骤 和 研究 者 做 出 的 每 个 决定 所 需要 的 信息 。 

此 外 ， 定 性 研究 分 析 具 有 两 大 特征 : 数据 分 析 与 数据 收集 过 程 同时 进行 ; 需要 应 
用 系统 分 析 技 术 。 由 于 方法 的 灵活 性 以 及 分 析 过 程 中 常 有 新 的 发 现 ， 分 析 必须 与 数据 
收集 同时 进行 。 为 了 调查 这 些 新 发 现 ， 必 须 收 集 新 的 数据 ， 并 且 一 些 基 础 工具 ， 如 访 
谈 问卷 ， 也 要 随 之 进行 更 新 。 由 于 数据 收集 技术 频繁 更 新 ， 而 同时 又 要 维护 证 据 链 ， 
因此 需要 采用 系统 化 分 析 技 术 。 

为 减少 研究 人 员 的 个 人 偏见 ， 分 析 最 好 由 多 名 研究 人 员 来 完成 。 每 名 研究 人 员 的 
初步 结果 汇总 成 共同 分 析 结 论 。 对 合作 计划 的 跟踪 及 报告 有 助 于 提高 研究 的 有 效 性 。 

通用 分 析 技 术 。 定 性 数据 的 分 析 技 术 包 括 两 类 : 假设 生成 技术 和 假设 确认 技术 
[148], 

假设 生成 技术 用 于 从 数据 中 发 现 假 设 。 当 使 用 这 类 技术 时 ,研究 人 员 应 当 按 除 偏 
见 ， 对 数据 中 发 现 的 任何 假设 保持 开放 态度 。 这 些 技术 的 结果 同样 也 是 假设 。 假 设 生 
成 技术 的 例子 有 “常量 比较 ”和 “路 案例 分 析 ” [148 ] 。 假 设 确认 技术 是 用 来 确认 假 
设 为 真 的 技术 ， 例 如 通过 对 更 多 数据 进行 分 析 。 三 角 剖 分 和 重复 研究 都 是 假设 确认 方 
法 的 例子 [148] 。 负 面 案 例 分 析 试 图 找 出 拒绝 假设 的 备 选 解释 。 这 些 基本 技术 类 型 往 
往 迭 代 和 组 合 使 用 。 比 如 ， 首 先生 成 假设 ， 然 后 确认 假设 。 假 设 可 以 在 案例 研究 的 一 
个 循环 中 产生 ， 或 者 结合 来 自分 析 单元 的 数据 而 产生 ， 而 假设 确认 则 可 能 需要 另 一 个 
循环 或 分 析 单 元 的 数据 来 完成 [2] 。 

这 意味 着 定性 数据 分 析 包 括 一 系列 步骤 (基于 Robson [144] ) 。 首 先 ， 对 数据 进 
行 编码 ， 这 意 指 为 部 分 文本 指定 编码 ， 这 些 编码 能 够 表示 特定 的 主题 、 区 域 、 结 构 等 。 
一 个 编码 通常 分 配给 许多 文本 片段 ， 一 个 文本 片段 也 可 以 分 配 多 个 编码 。 这 些 编码 形 
成 层次 结构 和 子 编码 。 编 码 后 的 材料 可 以 与 研究 人 员 的 评论 和 反馈 〈 即 “备忘录 ”) 
结合 起 来 。 完 成 这 部 分 内 容 后， 研究 人 员 可 以 仔细 检查 这 些 材料 从 而 获取 第 一 组 假设 。 
假设 可 以 是 从 材料 的 不 同 部 分 找到 的 相似 短语 、 数 据 中 的 模式 、 主 题 下 子 群 的 差异 ， 
等 等 。 正 如 上 文 所 述 ， 当 实施 进一步 的 数据 收集 时 就 可 以 使 用 这 些 假 设 ， 也 就 是 数据 
收集 和 分 析 并 行 执 行 。 在 迭代 过 程 中 ,制定 一 个 小 的 归纳 集 ， 并 最 终 形成 形式 化 的 知 
识 体 ， 这 就 是 研究 人 员 试 图 获取 的 最 终结 果 。 这 显然 不 是 一 个 简单 的 步 又 序列 。 相 反 ， 
它们 是 迭代 执行 并 相互 影响 的 。 

表格 是 一 种 有 用 的 数据 分 析 技 术 ， 用 表格 组 织 编码 后 的 数据 ， 就 可 以 得 到 一 个 数 
据 概 览 。 例 如 在 用 表格 组 织 数据 时 ， 行 代表 兴趣 编码 ， 而 列 代表 访谈 主体 。 但 如 何 组 
织 数据 则 应 根据 每 个 案例 的 情况 决定 。 
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已 经 有 一 些 专门 的 软件 工具 用 来 支持 定性 数据 分 析 ， 如 NVivo 和 Atlas? 。 但 在 一 
些 情 况 下 ， 处 理 文本 数据 采用 诸如 文字 处 理工 具 和 数据 表格 工具 等 常用 工具 就 可 以 了 。 
形式 化 水 平 。 如 前 所 述 ， 在 定性 分 析 中 结构 化 方法 很 重要 。 但 数据 分 析 的 形式 化 
水 平 可 以 不 同 。 罗 伯 森 [144] 提 及 了 下 列 方法 。 
。 沉浸 方法 : 最 弱 的 结构 化 方法 ， 其 结构 化 水 平 非常 低 ， 更 依赖 于 研究 者 的 直觉 
和 解释 技巧 。 这 些 方法 很 难保 持 和 表达 证 据 链 。 
。 编辑 方法 : 该 类 方法 包括 很 少 的 先 验 编码 ， 即 编码 是 基于 研究 人 员 在 分 析 中 的 
发 现 来 定义 的 。 
© 模板 方法 : 该 类 方法 更 形式 化 ， 也 包含 更 多 基于 研究 问题 的 先 验 知识 。 
o 准 统计 性 方法 : 该 类 方法 非常 形式 化 ， 并 包含 如 词汇 和 短语 等 的 频率 计算 等 。 
根据 我 们 的 经 验 ， 编 辑 方法 和 模板 方法 更 适合 软件 工程 案例 研究 。 在 非 形式 化 的 
沉浸 方法 中 ， 很 难 表示 和 获取 一 条 清晰 的 证 据 链 ， 且 这 种 方法 也 很 难 表示 某 些 结果 ， 
如 文档 和 访谈 中 的 词 频 分 析 。 


5.4.3 有 效 性 


研究 的 有 效 性 是 指 研究 结果 的 可 信和 度 ， 以 及 研究 结果 的 适用 范围 和 它 不 受 研究 人 
员 主 观看 法 影响 的 范围 。 当 然 ， 不 能 等 到 进入 分 析 阶 段 才 去 考虑 有 效 性 。 在 案例 研究 
的 所 有 前 期 阶段 都 必须 考虑 有 效 性 。 

有 许多 不 同 的 方法 对 文献 的 有 效 性 和 有 效 性 威胁 进行 分 类 。 这 里 我 们 选择 一 种 分 
类 模式 ，Yin [180] 也 曾经 用 这 种 方法 做 过 案例 研究 ， 它 类 似 于 软件 工程 控制 实验 中 
经 常 采用 的 分 类 方法 ， 详 见 8.7 节 。 有 一 些 研究 者 认为 应 该 采用 不 同 的 分 类 模式 去 实 
现 柔 性 的 设计 研究 (可 信 性 、 可 转移 性 、 可 靠 性 和 可 确认 性 )， 但 我 们 更 倾向 于 通过 
调整 这 个 模式 来 实现 柔性 设计 研究 ， 而 不 再 去 修订 术语 表 [144] 。 该 模式 区 分 四 个 方 
面 的 有 效 性 ， 如 下 所 述 。 

。 结构 有 效 性 : 反映 研究 中 选择 使 用 的 度量 可 以 真实 反映 研究 者 想法 的 程度 ， 以 

及 根据 研究 问题 要 去 开展 什么 调查 研究 的 程度 。 例 如 ， 对 于 访谈 问题 中 的 结 
构 ， 如 果 研 究 人 员 与 受 访 人 员 有 不 同 的 解释 ， 那 么 就 认为 存在 一 个 结构 有 效 性 
威胁 。 

。 内 部 有 效 性 : 主要 用 于 考察 因果 关系 时 。 当 研究 人 员 在 分 析 一 个 调查 因素 是 否 
会 影响 另 一 个 调查 因素 时 ， 很 可 能 所 调查 的 因素 还 会 受到 第 三 个 因素 的 影响 。 
如 果 研 究 者 不 知道 存在 第 三 个 因素 ， 或 者 不 知道 它 影 响 调查 因素 的 程度 ， 那 么 
就 认为 存在 一 个 内 部 有 效 性 威胁 。 

外 部 有 效 性 : 主要 关注 研究 结果 可 能 的 推广 范围 ， 以 及 本 研究 案例 以 外 的 人 对 
该 研究 结果 的 感 兴趣 程度 。 在 外 部 有 效 性 分 析 中 ， 研 究 人 员 要 尝试 去 分 析 研 究 
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结果 与 其 他 案例 的 相关 程度 。 在 案例 研究 中 ， 不 存在 一 个 总 体 ， 可 以 从 中 提取 
出 具有 统计 代表 性 的 样本 。 但 是 案例 研究 的 目标 还 是 希望 能 够 将 研究 结果 扩展 
到 具有 共性 的 案例 中 ， 然 后 ， 根 据 研 究 结 果 的 相关 性 提出 一 些 理论 。 

TE: 主要 关注 数据 和 分 析 结 果 对 研究 人 员 的 依赖 程度 。 假 设 ,将 来 有 为 一 
个 研究 人 员 也 进行 了 相同 的 研究 ， 那 么 他 得 到 的 结果 应 该 与 当前 研究 的 结果 完 
全 相同 。 和 常见 的 可 靠 性 威胁 有 ， 如 何 处 理 所 收 集 的 数据 不 清楚 ， 或 者 调查 问卷 
或 访谈 问题 不 清晰 的 问题 。 在 定量 分 析 中 ， 与 可 靠 性 对 应 的 是 结论 有 效 性 ， 详 
见 8.7 节 。 

如 前 所 述 ， 一定 要 从 一 开始 就 考虑 案例 研究 的 有 效 性 。 提 高 有 效 性 的 方法 有 多 种 ， 
比如 三 角 齐 分 法 ; 开发 和 维护 一 个 详细 的 案例 研究 协议 ; 对 设计 、 协 议 等 进行 同行 评 
审 ; 将 收集 的 数据 和 得 到 的 结果 提交 案例 主体 审阅 ; 投入 足够 的 时 间 进 行 案例 分 析 ， 
同时 要 足够 重视 “反面 案例 ”的 分 析 ， 如 寻找 与 结果 相 矛 盾 的 理论 等 。 


5.5 撰写 报告 


报告 应 该 和 经 验 研究 相 一 致 。 报 告 既是 对 研究 结果 的 展示 ， 也 是 用 于 评判 研究 质 
量 的 主要 信息 源 。 报 告 可 能 有 不 同 的 受众 ， 比 如 同行 研究 者 、 政 策 制定 者 、 研 究 资 助 
者 和 业界 从 业 人 员 [180]。 因 此 可 能 需要 为 不 同 的 受众 扎 写 不 同 的 报告 。 这 里 主要 关 
注 以 同行 研究 者 为 主要 受众 的 报告 ， 比 如 期 刊 或 会 议 文章 ， 还 可 能 包括 技术 报告 
[22]。Runeson 等 人 [146] 给 出 了 以 其 他 受众 为 主 的 、 不 同 格式 的 软件 工程 案例 研究 
报告 撰写 指南 。 考 虑 到 案例 研究 所 产生 的 大 量 数据 ，Benbasat 等 人 认为 “书籍 或 专题 
论文 是 发 布 案例 研究 的 更 好 途径 ”[22 ] 。 

由 于 高 层 结构 更 灵活 且 大 多 基于 定性 数据 ， 而 低层 细节 不 够 规范 ， 且 更 依赖 于 个 
案 ， 因 此 案例 研究 大 多 采用 高 层 结构 〈 详 见 第 11 章 ) 。 下 面 ， 我 们 先 讨论 案例 研究 报 
告 的 特点 ， 然 后 讨论 推荐 的 结构 。 


5.5.1 特点 


Robson 定义 了 一 组 案例 研究 报告 应 具备 的 特点 [144] ， 可 归结 为 如 下 几 点 。 

。 说 明 研究 什么 。 

© 对 被 研究 案例 的 清晰 描述 。 

。 提供 “调查 历史 ”， 以 便 读者 能 知晓 做 了 什么 、 谁 做 的 以 及 是 如 何 做 的 。 

© 按 规定 格式 提供 基础 数据 ， 以 便 让 读者 理解 结论 的 合理 性 。 

。 清晰 地 表达 研究 结论 及 其 适用 环境 。 

此 外 ,研究 者 发 表 其 研究 成 果 还 要 权衡 好 职责 和 目标 、 公 司 和 个 人 的 信誉 [3]. 

案例 研究 的 目的 和 研究 问题 通常 以 开门 见 山 的 方式 报告 。 如 果 在 研究 过 程 中 发 生 
了 实质 性 变化 ， 则 应 在 报告 中 说 明 以 便 帮助 读者 理解 案例 。 

案例 的 描述 可 能 会 比较 敏感 ， 因 为 这 可 能 会 使 案例 或 者 其 主体 被 识别 出 来 。 例 如 
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“瑞典 的 一 家 大 型 电信 公司 ”就 非常 有 可 能 是 指 爱立信 公司 的 子 公司 。 然 而 ， 除 仅 由 
应 用 领域 和 国家 来 描述 案例 之 外 ， 还 可 用 更 好 的 方式 来 刻画 案例 。 通 常情 况 下 ， 内 部 
特征 ， 如 所 研究 组 织 的 规模 和 成 员 的 平均 年 龄 ， 可 能 要 比 领域 和 营业 额 这 样 的 外 部 特 
征 更 有 意义 。 和 否则 说 一 个 案例 包括 一 个 大 公司 旗下 的 子 公 司 ， 那 会 导致 无 法 区 分 具体 
指 哪个 子 公司 ， 或 者 说 是 一 个 小 公司 ， 那 从 许多 候选 公司 中 辨别 出 此 小 公司 也 是 相当 
困难 的 。 因 此 ， 描 述 案例 时 一 定 要 权衡 。 

本 质 上 ， 提 供 “ 调 查 历史 ” 比 纯粹 的 方法 报告 〈 例 如 , “我 们 使 用 半 结 构 化 访谈 
方法 进行 了 一 个 案例 研究 。”) 有 更 多 的 细节 要 求 。 因 为 研究 的 有 效 性 和 “做 了 什么 、 
谁 做 的 和 如 何 做 的 ”密切 相关 ， 因 此 需要 报告 研究 过 程 中 动作 序列 和 各 角色 的 工作 。 
另 一 方面 ， 报 告 中 不 可 能 有 足够 的 篇 幅 去 详细 地 描述 案例 研究 中 的 每 一 个 细节 ， 因 此 
必须 平衡 好 。 大 量 数据 是 在 定性 研究 中 收集 的 ， 分 析 这 种 数据 的 主要 重点 是 精简 和 整 
理 数据 ， 以 提供 结论 的 证 据 链 。 然 而 ， 为 了 在 研究 中 建立 信任 ， 还 需要 把 用 以 支持 结 
论 的 相关 数据 的 快照 提供 给 读者 。 这 些 快照 可 以 是 引用 (典型 或 特殊 声明 )、 图 片 或 
匿名 主体 的 叙述 。 而 且 ， 在 数据 分 类 中 使 用 的 类 别 可 以 帮助 读者 理解 证 据 链 。 

最 后 ， 一 定 要 报告 结论 以 及 其 适合 的 上 下 文 环 境 ， 例 如 通过 形成 理论 的 方式 。 一 
个 案例 研究 不 能 作为 一 个 总 体 的 代表 进行 推广 ， 但 毕竟 总 体 样 本 法 也 不 是 获取 和 转移 
知识 的 唯一 方式 。 没 有 统计 分 析 也 可 以 得 出 结论 ， 这 些 结论 可 以 被 解释 并 且 可 以 与 其 
他 案例 相关 联 。 在 软件 工程 领域 内 ， 通 过 理论 的 方式 来 交流 研究 成 果 还 是 一 个 有 待 开 
发 的 方法 [72] (2.7 节 已 讨论 过 ) 。 


5.5.2 结构 


针对 案例 研究 的 学 术 报 告 ， 线 性 分 析 结 构 ( 问题、 相关 工作 、 方 法 、 分 析 和 结 
论 ) 是 最 易 被 接受 的 结构 。Jedlitschka 和 Pfahl 提出 的 用 于 软件 工程 实验 的 高 级 结构 报 
告 方 法 [86] 也 可 以 用 于 案例 研究 。 然 而 ,根据 案例 研究 的 具体 特征 和 基于 评估 ( 指 
Kitchenham 等 人 倡导 的 评估 方法 [101]) 得 出 的 其 他 问题 ， 该 方法 还 需要 进行 一 些 改 
动 ， 最 终 的 报告 结构 见 表 5-4。 

表 5-4 用 于 案例 研究 的 推荐 报告 结构 (基于 Jedlitschka、Pfahl 和 Runeson 等 人 [146] 的 研究 ) 








章节 标题 次 级 标题 
题目 
作者 
结构 化 摘要 
引言 问题 陈述 
研究 目的 
上 下 文 情境 
相关 工作 ee 


理论 
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( 续 ) 
章节 标题 次 级 标题 
案例 研究 设计 研究 问题 
案例 与 主体 的 选择 
数据 收集 规程 
分 析 规 程 
验证 规程 
结果 案例 和 主体 的 描述 、 覆 盖 执 行 、 分 析 和 解释 
分 段 ， 可 以 结构 化 。 比 如 根据 编码 模式 ， 把 观察 情况 和 相应 的 结论 进行 关联 。 
有 效 性 评价 
结论 和 展望 结论 概述 
与 已 有 论据 之 间 的 关系 
影响 与 贡献 
限制 
将 来 的 工作 
致谢 
参考 文献 
附录 


在 案例 研究 中 ， 理 论 可 以 构成 一 个 分 析 框 架 因此 ， 有 两 种 相关 工作 : 当前 主 
题 的 早期 研究 和 当前 研究 基于 的 理论 。 设 计 部 分 相当 于 案例 研究 协议 ， 即 ， 其 中 的 
案例 研究 计划 包括 为 确保 研究 的 有 效 性 而 采取 的 措施 。 由 于 案例 研究 是 柔性 设计 的 ， 
而 数据 收集 和 分 析 又 是 错综复杂 的 ， 因 此 这 些 内 容 可 以 综合 为 一 个 小 节 ( 像 5.3 节 


中 的 那样 ) 。 


因此 ， 低 级 结构 的 内 容 必 须要 调整 为 表 5-4 推荐 的 那样 。 尤 其 对 于 合并 后 的 数据 
部 分 ， 编 码 方案 经 常 包含 自然 的 分 段 结构 。 或 者 对 于 一 个 具有 上 比较 性 的 案例 研究 ， 数 
据 部 分 可 以 根据 对 照 案例 进行 结构 化 。 而 对 于 纵向 研究 ， 数 据 结 构 可 以 按照 时 间 尺 度 
来 组 成 。 这 种 组 合 的 结果 部 分 还 包括 一 个 对 最 终结 果 有 效 性 的 评价 。 

下 一 章 将 会 概述 实验 的 实施 过 程 ， 而 每 一 步 的 详细 过 程 将 在 后 续 章 节 介绍 。 


5.6 练习 


5.1 案例 研究 在 什么 情况 下 使 用 ? 

52 ”作为 一 个 柔性 研究 方法 ,计划 在 案例 研究 中 起 什么 作用 ? 
5.3 一 项 研究 的 案例 选择 标准 是 什么 ? 

5.4 列举 三 种 访谈 形式 ， 并 说 明 使 用 场景 。 

5.5 ”描述 定性 分 析 的 一 般 过 程 。 
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实验 不 是 一 件 简 单 的 事情 。 我 们 必须 要 合理 地 准备 、 实 施 和 分 析 实 验 。 实 验 最 主 
要 的 优点 是 可 以 对 主体 、 客 观 对 象 以 及 实验 设备 进行 控制 ， 以 确保 我 们 有 能 力 得 到 比 
较 通 用 的 结论 。 此 外 ， 我 们 还 可 以 使 用 假设 检验 方法 进行 统计 分 析 ， 并 且 有 机 会 可 以 
复 现实 验 。 为 了 确保 发 挥 这些 优 点 ， 需 要 有 一 个 过 程 来 支持 我 们 正确 地 进行 实验 并 达 
到 目标 (这 里 的 实验 包括 准 实验 ， 除 非 男 有 明确 说 明 )， 实验 的 基本 原则 如 图 6-1 
所 示 。 


理论 层 因果 构造 


图 6-1 实验 的 原则 (由 Trochim [171] 改编 ) 


实验 的 起 点 是 我 们 假设 存在 一 个 因果 关系 ， 也 就 是 说 我 们 相信 在 构造 的 原因 和 结 
果 之 间 存 在 某 种 关系 ,我 们 希望 证 明 一 个 理论 或 者 能 够 给 出 一 个 假设 。 这 里 假设 是 一 
种 方法 ,可 以 形式 化 地 表达 某 种 设想 ， 壁 如 关系 。 

实验 可 以 用 来 验证 我 们 的 设想 。 例 如 ， 建 立 一 个 实验 来 检验 理论 或 者 假设 ,在 设 
计时 ， 构 造 若 干 可 以 控制 的 实验 处 置 (被 研究 的 变量 可 能 的 取 值 ， 见 后 文 )， 完 成 处 
置 并 观察 得 到 结果 ， 这 也 意味 着 实验 的 目的 是 检验 处 置 和 结果 之 间 的 关系 。 如 果实 验 
构建 正确 ， 就 能 够 推断 出 在 假设 中 所 描述 的 因果 关系 是 否 存在 。 

大 部 分 实验 的 主要 目的 是 评价 某 个 假设 或 者 关系 ， 见 2. 4. 1 节 。 假 设 检 验 一 般 是 
针对 前 者 ， 后 者 主要 是 基于 所 收集 的 数据 建立 一 个 关系 模型 ， 这 个 模型 通常 可 以 用 多 
元 统计 方法 得 到 ， 例 如 回归 技术 ， 然 后 用 实验 进行 评价 。 本 书 主 要 关注 假设 检验 ， 多 
元 统计 方法 可 以 参见 Kachigan [90, 91] 和 Manly [118] 等 。 

本 章 所 介绍 的 实验 过 程 凝练 了 前 人 的 经 验 ， 期 望 以 合适 的 活动 确保 实验 成 功 。 很 
多 失败 的 案例 都 是 由 于 我 们 在 实验 前 忽视 了 某 些 因 子 ， 导 致 计划 中 遗漏 了 相应 的 分 析 
而 无 法 得 到 有 效 的 结论 。 制 定 这 个 过 程 的 目标 就 是 为 了 支持 实验 的 建立 和 实施 。 本 章 








简单 概述 实验 的 活动 ， 具 体 细 节 请 参见 第 7~11 章 。 


6.1 变量、 处置、 对 象 和 主体 


在 讨论 实验 过 程 之 前 ， 有 必要 先 介绍 一 些 定义 ， 以 建立 实验 的 词汇 表 。 当 实施 一 
个 正式 的 实验 时 ， 我 们 会 改变 过 程 的 输入 变量 ， 并 研究 由 此 而 产生 的 结果 。 所 以 ， 实 
验 中 有 两 种 变量 ， 独 立 变 量 和 非 独立 变量 ， 如 图 6-2 所 示 。 


图 6-2 独立 变量 与 非 独 立 变 量 图 示 


随 独 立 变量 变化 而 变化 的 变量 ， 称 为 非 独 立 变量 (dependent variable， 也 叫 响 应 变 
Ht, response variable) ， 通 常 在 一 个 实验 中 只 有 一 个 非 独 立 变 量 。 所 有 在 过 程 中 可 以 控 
制 和 操纵 的 变量 ， 都 称 为 独立 变量 (independent variable) 。 

示例 : 我 们 想 研 究 新 的 开发 方法 对 个 人 生产 率 的 影响 。 判 断 是 否 可 引入 面向 对 象 
的 设计 方法 蔡 代 面 向 功能 的 方法 。 实 验 中 的 非 独立 变量 是 生产 率 ， 独 立 变 量 可 以 是 开 
发 方法 、 参 加 实验 的 人 员 、 支 持 工具 和 环境 等 。 

实验 的 目的 是 研究 改变 一 个 或 者 多 个 独立 变量 时 ， 对 实验 结果 的 影响 ， 这 些 变 量 
称 为 因子 (factor) 。 实 验 中 ， 需 要 将 其 他 的 独立 变量 控制 在 一 个 固定 的 水 平 ， 和 否则 我 
们 无 法 说 明 是 哪个 变量 导致 了 结果 。 一 次 处 置 (treatment) 为 一 个 因子 产生 一 个 特定 
的 值 。 

示例 : 在 上 面 的 实验 案例 中 ， 因 子 是 开发 方法 ， 因 为 我 们 希望 研究 改变 开发 方法 
的 效果 ， 我 们 对 这 个 因子 用 两 个 处 置 ， 分 别 采用 旧 和 新 的 开发 方法 。 

实验 设计 (experiment design) 时 要 考虑 如 何 选 择 处 置 ， 以 及 其 他 独立 变量 应 该 设 
置 的 水 平 ， 见 图 6-3。 实 验 设 计 将 在 第 8 章 详细 介绍 。 


实验 
OO 
ihe 
m- N 非 独立 
woe SE |e 
l 独立 变量 的 固定 水 平 


图 6-3 实验 图 示 


处 置 应 用 于 对 象 〔object) 和 主体 (subject) 的 组 合 ， 例 如 ， 对 象 可 以 是 一 个 将 被 
不 同 审查 技术 评审 的 文档 ， 采 用 这 个 处 置 的 人 便 是 主体 S 。 在 实验 中 对 象 和 主体 都 是 L535 





O ”有 时 会 用 术语 “参与 者 ”代替 术语 “主体 "。 当 用 “主体 ”时 ， 主 要 表示 人 要 采用 不 同 的 处 置 并 进行 相 
关 的 分 析 。 当 用 “参与 者 ”时 ， 主 要 表示 如 何 鼓励 和 促进 人 员 参 与 实验 。 
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独立 变量 。 

示例 : 上 述 实验 中 ， 对 象 是 要 开发 的 程序 ， 主 体 是 程序 员 个 人 。 

实验 中 包含 一 组 检验 (test) (有 时 也 称 作 试验 ) ， 每 个 检验 都 是 一 个 处 置 、 主 体 
和 对 象 的 组 合 。 需 要 注意 的 是 ， 这 里 的 检验 不 要 和 统计 检验 相 混淆 ， 我 们 会 在 第 10 章 
进一步 讨论 。 检 验 的 次 数 会 影响 实验 的 误差 ， 所 以 通常 会 估计 每 个 实验 因子 的 均值 。 
实验 误差 的 大 小 也 可 以 帮助 我 们 树立 对 实验 结果 的 信心 。 

示例 : 一 个 检验 可 以 是 N 个 人 (主体) 使 用 新 开发 方法 (E) 开发 程序 A 
(对 象 ) 。 

在 面向 人 的 实验 中 ， 人 是 主体 ， 使 用 不 同 的 处 置 作用 于 对 象 。 面 向 人 的 控制 实验 
会 有 一 些 特殊 性 。 首 先 ， 人 有 不 同 的 技能 和 能 力 ， 本 身 就 可 以 是 独立 变量 。 其 次 ， 人 
会 不 断 学 习 ， 这 也 就 意味 着 如 果 主 体 采 用 两 种 方法 ， 其 采用 顺序 会 对 结果 产生 影响 ， 
而 且 两 次 处 置 中 的 对 象 也 不 可 能 是 完全 相同 的 。 第 三 ， 由 于 人 具有 猜测 实验 期 望 的 能 
力 ， 并 有 不 同 的 主观 动机 ， 等 等 ， 会 对 以 人 为 主体 的 实验 带 来 各 种 人 为 的 影响 和 威胁 。 
因此 如 何 选 择 和 处 理 主体 对 实验 结果 非常 重要 。 

面向 技术 的 实验 则 比较 容易 控制 ， 因 为 技术 是 确定 的 。 在 这 种 类 型 的 实验 中 ， 不 
好 控制 的 独立 变量 可 以 用 选择 不 同 的 对 象 来 替代 。 璧 如 一 种 工具 或 技术 ， 可 能 只 适用 
于 某 类 程序 。 因 此 如 何 选择 对 象 对 实验 结果 就 非常 重要 。 


6.2 过 程 


过 程 提供 了 执行 活动 的 步骤 ， 壁 如 软件 开发 。 过 程 之 所 以 重要 ， 是 因为 可 以 把 过 
程 看 作 是 做 什么 以 及 如 何 做 的 检查 单 和 指南 。 要 完成 一 个 实验 , 必须 执行 一 些 步骤， 
并 且 必 须 按 一 定 的 顺序 执行 。 所 以 ， 我 们 需要 一 个 过 程 ， 定 义 开 展 实 验 需要 执行 的 
活动 。 

这 里 介绍 的 过 程 主要 针对 实验 ,不 过 ， 如 5.1. 2 节 介 绍 的 案例 研究 过 程 一 样 ， 同 
样 的 基本 步骤 在 经 验 研 究 中 也 是 需要 的 ， 主 要 的 区 别 在 于 活动 中 具体 的 工作 。 辟 如 ， 
调查 法 、 实 验 和 案例 研究 的 设计 不 同 ， 但 它们 都 需要 设计 。 案 例 研究 的 设计 灵活 ， 可 
以 多 次 迭代 地 执行 过 程 步骤 ， 而 调查 法 和 实验 的 设计 则 比较 固定 ， 通 常 只 执行 一 次 过 
程 步 又 。 而 且 ， 这 些 基 本 的 过 程 也 可 以 用 于 其 他 的 研究 类 型 ， 只 是 应 该 做 适当 的 裁剪 
以 适应 具体 的 研究 ， 例 如 使 用 电子 邮件 的 调查 、 大 型 软件 开发 的 案例 研究 等 。 这 个 过 
程 也 适用 于 随机 实验 和 准 实验 。 后 者 在 软件 工程 中 经 常用 到 ， 特 别 是 当 对 主体 (BS 
者 ) 随机 样本 不 可 行 的 时 候 。 

实验 的 起 点 是 认识 和 理解 ， 提 出 一 种 思路 来 进行 实验 去 验证 我 们 感 兴趣 的 事情 。 
换 名 话说， 我们 必须 认 清 进行 的 实验 对 于 我 们 正在 调研 的 问题 是 合适 的 。 这 并 非 总 是 
显而易见 的 ， 特 别 是 ， 经 验 研 究 方法 还 没有 频繁 地 应 用 于 计算 机 科学 和 软件 工程 领域 
[170，181]。 有 一 些 争议 讨论 为 什么 计算 机 科学 家 应 该 更 多 地 做 实验 ， 见 Tichy 
[169] 。 如 果 假设 我 们 已 经 认识 到 实验 是 合适 的 ， 那么 非常 重要 的 一 点 是 ， 必 须 仔 细 





地 计划 实验 ， 以 避免 一 些 不 确定 性 导致 误解 ， 见 2.9 节 。 

实验 过 程 可 以 划分 为 以 下 主要 活动 ， 第 一 步 是 确定 范围 ， 我 们 需要 根据 问题 、 目 
标 和 目的 确定 实验 的 范围 。 然 后 是 计划 ， 需 要 设计 实验 ， 考 虑 实验 需要 的 设施 、 工 具 
和 环境 ， 并 且 评 估 实 验 的 威胁 。 设 计 之 后 是 操作 ， 在 操作 活动 中 ， 要 收集 度量 。 然 后 
在 分 析 与 解释 活动 中 进行 分 析 与 评估 。 最 后 ， 在 归档 与 展示 活动 中 对 结果 进行 归档 与 
展示 。 这 些 活 动 如 图 6-4 所 示 ， 下 面 会 进一步 解释 并 在 第 7 ~ 11 章 详细 讨论 。 图 6-5 概 
要 给 出 了 实验 过 程 所 包含 的 活动 。 





图 6-4 实验 过 程 概览 


这 个 过 程 并 不 是 一 个 “ 真 的 ”瀑布 模型 ， 它 并 不 假定 一 个 活动 必须 在 下 一 个 活动 
开始 前 结束 。 过 程 中 活动 的 顺序 主要 是 这 些 活 动 开始 的 顺序 。 也 就 是 说 ， 这 些 活 动 可 
以 部 分 迭代 进行 ， 但 可 能 需要 在 继续 实验 之 前 返回 并 改进 前 面 的 活动 。 这 其 中 的 例外 
是 一 旦 操作 开始 ， 就 不 可 能 再 返回 到 确定 范围 和 计划 的 活动 。 这 是 因为 开始 操作 就 意 
味 着 主体 已 经 被 实验 影响 ， 如 果 返 回 计 划 后 再 进行 操作 ， 实 验 就 可 能 不 能 再 使 用 同样 
的 主体 。 

确定 范围 〈Scoping) 。 第 一 个 活动 是 确定 范围 ， 要 清楚 地 陈述 假设 ， 并 定义 实验 的 
目的 和 目标 。 在 这 个 阶段 ， 并 不 需要 形式 化 地 描述 假设 , 但 必须 清楚 。 实 验 的 目的 应 
来 自 要 解决 的 问题 。 [13] 建议 了 一 个 框架 ,帮助 我 们 捕捉 到 合适 的 范围 。 该 框架 包 
括 下 列 成 分 。 

© 研究 对 象 ( 研 究 什 么 ?) 

。 目的 (意图 是 什么 ?) 

© 质量 焦点 (研究 要 达到 的 效果 是 什么 ?) 

。 视角 (从 什么 角度 看 ?) 

。 情境 (实验 场所 是 什么 ?) 

第 7 章 将 进一步 讨论 这 些 问 题 。 

计划 〈Planning) 。 计 划 活 动 是 实验 的 基础 。 要 详细 确定 实验 的 场景 ， 包 括 人 员 和 








图 6-5 实验 过 程 与 本 书 章节 相关 制品 的 概览 


环境 , 譬如 是 有 学 生 参 与 的 大 学 环境 ， 还 是 工业 环境 。 此 外 ， 实 验 的 假设 要 形式 化 地 
表述 ， 包 括 原 假设 和 备 择 假设 。 

计划 活动 中 的 第 三 步 是 确定 变量 ,包括 独立 变量 (输入 ) 和 非 独 立 变 量 (输出 )， 
这 里 重要 的 事情 是 要 确定 变量 的 实际 取 值 ， 以 及 确定 合适 的 度量 尺度 ， 这 可 以 让 我 们 
在 度量 方法 上 设置 一 些 约束 ， 以 便 支持 后 面 的 统计 分 析 。 研 究 的 主体 也 要 在 这 里 识别 
和 确定 。 

下 一 步 是 实验 设计 ， 包 括 选 择 合适 的 设计 方法 ， 如 主体 的 随机 化 。 与 设计 密切 相 
关 的 事情 包括 准备 实验 的 设备 、 工 具 等 。 我 们 必须 准备 合适 的 实验 对 象 ， 必 要 时 还 要 
开发 指南 ， 并 定义 度量 规程 ， 这 些 问 题 将 在 第 8 章 具体 讨论 。 

作为 计划 的 一 部 分 ， 还 必须 考虑 如 何 保证 我 们 期 望 的 结果 是 有 效 的 。 有 效 性 可 以 














分 为 四 种 主要 的 类 别 ， 即 : 内 部 、 外 部 、 构 造 和 结论 有 效 性 。 内 部 有 效 性 关心 给 定 的 
环境 和 结果 的 可 靠 性 ; 外 部 有 效 性 关心 研究 结果 的 通用 性 。 许 多 时 候 ， 我 们 希望 表达 
实验 的 结果 在 实验 所 运行 的 环境 之 外 也 是 有 效 的 ; 结构 有 效 性 的 关键 是 判断 相关 的 处 
置 是 否 合适 地 反映 了 原因 构造 ， 并 且 结 果 也 真实 地 描绘 了 效果 构造 ， 见 图 6-1; 结论 有 
效 性 则 主要 关心 实验 处 置 和 结果 之 间 的 关系 ， 我 们 必须 判断 处 置 和 结果 之 间 是 否 存在 
某 种 关系 。 

计划 是 实验 至 关 重 要 的 一 步 ， 要 确保 由 此 而 展开 的 实验 是 有 价值 的 。 粳 糕 的 计划 
可 能 会 毁 掉 一 个 创意 良好 的 研究 。 

操作 ( Operation ) 。 操 作 由 三 个 步骤 组 成 ， 分 别 是 : 准备 、 执 行 和 数据 确认 。 在 准 
备 阶 段 ， 我 们 要 准备 主体 以 及 实验 需要 的 材料 ， 璧 如 数据 收集 表 。 要 告诉 参与 者 实验 
的 意图 ， 获 得 他 们 的 许可 和 承诺 。 执 行 通常 不 是 问题 ， 重 要 的 是 要 保证 实验 包括 数据 
收集 按 计 划 和 设计 执行 。 最 后 ， 我 们 还 要 确保 实际 收集 的 数据 是 正确 的 ， 并 有 效 地 刻 
画 了 实验 。 操 作 活动 的 细节 将 在 第 9 章 讨 论 。 

分 析 与 解释 (Analysis and interpretation) 。 执 行 活动 收集 的 数据 为 这 个 活动 提供 了 
输入 ， 在 这 里 要 分 析 和 解释 这 些 数 据 。 首 先 应 该 通过 描述 性 统计 技术 去 理解 数据 。 这 
些 技术 可 以 为 数据 提供 一 些 直观 可 见 的 视图 ， 帮 助 我 们 非 正 式 地 理解 和 解释 获得 的 
数据 。 

下 一 步 要 考虑 是 否 应 该 约 简 数 据 集 ， 璧 如 移 除 数据 点 ， 或 者 当 一 些 变量 提供 了 同 
样 的 信息 时 ,减少 变量 的 数目 。 有 一 些 成 熟 的 方法 可 以 用 来 进行 数据 约 简 。 

数据 约 简 后 ， 就 可 以 进行 假设 检验 了 。 可 以 根据 度量 尺度 、 输 入 数据 的 值 、 结 果 
的 类 型 来 选择 实际 的 检验 方法 。 统 计 检 验 以 及 详细 的 解释 性 统计 和 数据 约 简 技 术 在 第 
10 章 讨论 。 

本 活动 的 一 个 重要 工作 就 是 解释 ， 也 就 是 说 ， 我 们 必须 根据 分 析 决 定 是 否 有 可 能 
拒绝 设 定 的 假设 。 这 是 我 们 决定 如 何 使 用 实验 结果 的 基础 ， 并 激发 下 一 步 研究 的 思路 ， 
例如 是 否 应 该 进行 更 大 范围 的 实验 或 者 案例 研究 。 

归档 与 展示 (Presentation and Package)。 最 后 一 个 活动 关心 的 是 归档 和 展示 发 现 
的 结果 。 主 要 包括 结果 的 撰写 ， 可 以 是 可 公开 发 表 的 研究 论文 ， 可 供 重 复 实验 的 实验 
数据 包 ， 也 可 以 是 公司 经 验 库 的 一 部 分 。 在 这 个 最 后 的 活动 中 ,确保 以 适当 的 方式 进 
行经 验 总 结 是 非常 重要 的 。 此 外 ， 一 个 实验 永远 不 会 是 一 个 问题 的 最 终 答案 ， 能 够 重 
复 这 个 实验 非常 重要 ， 那 么 其 前 提 就 是 必须 有 一 个 完整 清楚 的 文档 。 不 过 ， 在 使 用 实 
验 数据 包 时 还 是 应 该 非常 小 心 ， 因 为 使 用 同样 的 实验 设计 和 文档 可 能 会 引入 原 实验 一 
些 系 统 性 的 问题 和 偏差 ， 如 2. 6 节 所 述 。 总 而 言 之 ， 实 验 后 我 们 必须 花 一 些 时 间 来 撰 
写 文 档 并 以 合适 的 方式 展示 。 实 验 的 展示 将 在 第 11 章 详细 介绍 。 


6.3 总 览 
实验 过 程 的 这 些 步骤 都 会 在 后 续 的 章节 中 详细 讨论 。 第 12 章 提供 一 个 例子 帮助 我 
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们 更 好 地 理解 这 个 过 程 。 该 例子 将 严格 遵循 这 个 定义 的 过 程 ， 以 指导 使 用 。 实 验 过 程 
的 概要 框架 见 图 6-5。 


6.4 练习 


6.1 什么 是 因果 关系 ? 

6.2 什么 是 处 置 ? 为 什么 有 些 时 候 在 一 些 随机 序列 中 必须 应 用 处 置 ? 

6.3 ”什么 是 独立 和 非 独 立 变 量 ? 

6.4 什么 是 准 实验 ? 解释 一 下 为 什么 在 软件 工程 中 准 实验 很 常见 。 
[81] 6.5 实验 过 程 有 哪些 主要 步骤? 为 什么 区 分 这 些 步骤 很 重要 ? 
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确定 范围 





实验 是 一 个 劳动 密集 型 的 工作 ， 为 了 提高 效率 ， 确 保 实验 的 意图 可 以 贯穿 整个 实 
验 的 始终 非常 重要 。 确 定 范围 是 建立 实验 的 基础 ， 如 图 7-1 所 示 。 如 果 基 础 不 合适 ， 
就 难免 返工 ， 其 至 南 辕 北 略 。 确 定 范围 阶段 的 目的 就 是 按照 一 个 设 定 好 的 框架 定义 出 
实验 的 目标 ， 这 里 我 们 遵照 Basili 和 Rombach 提出 的 GOM 模板 [13] 来 定义 目标 。 





确定 实验 范围 


图 7-1 确定 实验 范围 阶段 概览 


7.1 节 讨 论 如 何 确定 实验 范围 ，7.2 节 给 出 了 示例 。 


7.1 确定 实验 范围 


实验 范围 取决 于 实验 的 目标 。 目 标定 义 模板 的 用 处 在 于 确保 重要 的 实验 元 素 在 计 
划 和 开展 实验 之 前 都 已 考虑 到 并 定义 好 。 按 照 这 样 的 模板 定义 目标 ， 可 以 为 实验 建立 
正确 且 适 当 的 基础 。[13] 提出 的 目标 模板 如 下 : 

分 析 < 研究 对 象 ( Object(s) of study) > 中 定义 的 对 象 

实现 < 目的 (Purpose) > 中 要 求 的 目的 

具有 < 质量 焦点 (Quality Focus) > 中 期 望 的 效果 

从 < 视角 (Perspective) > 规定 的 角度 关注 这 些 质量 焦点 

在 < 情境 (Context) > 陈述 的 情境 中 进行 实验 

研究 对 象 是 实验 中 研究 的 实体 ， 可 以 是 产品 、 过 程 、 资 源 、 模 型 、 度 量 或 者 理论 ， 
例如 最 终 产 品 、 开 发 或 者 审查 过 程 、 可 靠 性 增长 模型 等 。 目 的 定义 了 实验 的 意图 ， 例 
如 评估 两 种 不 同 技术 的 影响 、 刻 画 组 织 的 学 习 曲 线 等 。 质 量 焦点 是 实验 关注 的 主要 效 
果 ， 例 如 效益 、 成 本 、 可 靠 性 等 。 视 角 指 从 什么 角度 解释 实验 结果 ， 例 如 开发 者 、 项 
目 经 理 、 客 户 和 研究 者 等 。 情 境 是 实验 运行 的 环境 。 情 境 应 简要 地 定义 哪些 人 (E 
体 ) 参与 实验 以 及 会 用 到 哪些 软件 制品 (对象 ) 。 主 体 的 属性 包括 经 验 、 团 队 规模 、 
工作 量 等 ， 对 象 的 属性 包括 规模 、 复 杂 度 、 优 先 级 、 应 用 领域 等 。 





O 注意 ， 此 处 的 “对 象 ”与 之 前 定义 的 “研究 对 象 ”并 不 相同 。 
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实验 情境 可 以 根据 主体 、 对 象 的 数量 来 进行 分 类 [10] ， 见 表 7-1。 
表 7-1 实验 情境 分 类 









多 个 
多 对 象 变异 研究 
主体 - 对 象 组 合 研究 











单一 对 象 研究 
单 对 象 多 检验 研究 





每 个 对 象 的 
主体 数 











单一 对 象 研究 (Single object study) 在 一 个 主体 和 一 个 对 象 中 进行 ， 多 对 象 变异 
研究 ( Multi-object variation study) 在 一 个 主体 作用 于 多 个 对 象 的 情境 下 进行 ， 单 对 象 
多 检验 研究 ( Multi-test within object study) 的 特点 是 多 主体 作用 于 一 个 对 象 ， 主 体 - 
对 象 组 合 研究 (Blocked subject-object study) 的 情境 则 是 一 组 主体 和 一 组 对 象 组 合作 用 
的 情况 。 这 些 实验 类 型 都 可 应 用 于 实验 或 者 准 实验 。 准 实验 中 主体 或 对 象 的 选择 一 般 
缺乏 随机 化 ， 璧 如 在 单一 对 象 研究 中 ， 如 果 主 体 和 对 象 的 选择 不 是 随机 的 ， 则 是 一 个 
准 实验 ， 和 否则 就 是 一 个 实验 。 实 验 和 准 实 验 的 区 别 在 Robson [144] 中 有 详细 的 讨论 。 

NASA-SEL [10] 在 净 室 原则 和 技术 方面 的 一 系列 实验 给 出 了 不 同 实验 类 型 的 例 
子 。 净 室 集合 了 一 组 软件 工程 方法 和 技术 ， 以 达到 生产 高 质量 软件 的 目的 。 净 室 的 简 
要 介绍 见 Linger [112] ， 它 是 由 四 步 组 成 的 一 个 实验 系列 。 第 一 步 ， 以 主体 - 对 象 组 
合 方式 进行 阅读 和 单元 测试 实验 [12] ， 见 表 7-2 中 的 1; 第 二 步 ， 在 学 生 环境 中 采 
用 净 室 技术 开发 一 个 项 目 [149] ， 实 验 是 单 对 象 多 检验 的 类 型 ， 见 表 7-2 中 的 2; 
第 三 步 ， 在 NASA-SEL 采用 净 室 技术 开发 一 个 项 目 [14] ， 作 为 单一 对 象 研究 实验 ， 
见 表 7-2 中 的 3; 第 四 步 ， 在 同样 环境 中 开展 三 个 净 室 项 目 ， 组 成 一 个 多 对 象 变异 研究 
的 实验 [14] ， 见 表 7-2 中 的 4。 分 析 另 外 一 个 新 技术 时 ， 从 新 的 阅读 实验 开始 下 一 轮 
实验 [18] ， 见 表 7-2 中 的 5。 这 个 实验 系列 Linkman 和 Rombach 也 讨论 过 [113]. 


表 7-2 情境 分 类 实验 的 示例 ，Basili [10] 









= 多 个 
4. SEL 净 室 项 目 2 -4 [14] 


5. 基于 场景 的 阅读 对 比 检查 单 [18] 














3. SEL 净 室 项 目 1 [14] 
2. 马里 兰 大 学 净 室 实验 [149] 





每 个 对 象 的 
主体 数 











表 7-2 的 例子 解释 了 如 何在 案例 研究 〈 见 3 和 4) 之 前 进行 一 些 实验 ( 见 1 和 2) 
作为 预 研究 。 这 符合 2.9 节 和 2. 10 节 介绍 的 风险 和 成 本 平衡 原则 下 技术 的 逐步 转移 和 
提升 。 


7.2 实验 案例 
根据 不 同 的 研究 对 象 、 目 标 填 写 目 标定 义 框架 ， 表 7-3 给 出 了 一 些 元 素 的 例子 。 
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表 7-3 目标 定义 框架 








研究 对 象 目的 质量 焦点 视点 情境 
品 刻画 效率 开发 者 主体 
过 程 监督 成 本 修改 者 对 象 
模型 评价 可 靠 性 维护 者 
度量 预测 可 维护 性 项 目 经 理 
理论 控制 可 移植 性 合作 经 理 
改变 客户 
用 户 
研究 者 


通过 组 合 框架 中 的 元 素 可 以 构造 一 个 实验 ， 下 面 给 出 了 一 个 案例 。 该 案例 定义 了 
一 个 审查 实验 ， 目 标 是 评价 不 同 审查 技术 ， 如 基于 视角 的 阅读 审查 和 基于 检查 单 的 阅 
读 审 查 。 基 于 视角 的 阅读 审查 由 Basili 等 [18] 提出 , 已 经 在 多 个 实验 中 被 评价 过 ， 
如 基于 视角 的 阅读 审查 和 Maldonado 等 [117] 提出 的 已 在 NASA 使 用 的 阅读 审查 的 对 
比比 较 ， 以 及 Laitenberger 等 [107] 进行 的 基于 视角 和 基于 检查 单 的 阅读 审查 方法 的 
比较 。 研 究 者 还 比较 了 一 些 其 他 的 阅读 审查 技术 ， 例 如 Thelin 等 进行 的 基于 用 途 和 基 
于 检查 单 的 阅读 方法 比较 [168]. 

本 案例 的 研究 对 象 是 基于 视角 的 阅读 ( Perspective-Based Reading, PBR) 技术 和 基 
于 检查 单 〈Checklist-Based Reading, CBR) 的 阅读 技术 。 目 的 是 评价 这 些 阅 读 技 术 ， 特 
别 是 要 考虑 PBR 中 视角 间 的 不 同 。 质 量 焦点 关注 这 些 阅读 技术 的 效果 和 效率 ， 实 验 的 视 
角 是 从 研究 者 的 角度 ， 实 验 情境 是 以 硕士 和 博士 为 主体 ， 实 验 包 是 一 组 文本 化 的 需求 文 
档 。 因 为 涉及 多 个 主体 和 需求 文档 ， 所 以 实验 以 主体 - 对 象 组 合 方式 进行 ， 见 表 7-1。 


实验 案例 总 结 如 下 : 
分 析 PBR 和 CBR 技术 
目的 是 评价 两 个 方法 


从 研究 人 员 的 角度 解释 


情境 为 硕士 和 博士 学 生 阅读 需求 文档 


在 第 8 ~ 10 章 将 继续 用 这 个 例子 解释 实验 过 程 的 其 他 步骤。 这 个 总 结构 成 了 实验 


的 目标 定义 ， 将 作为 实验 过 程 中 计划 步骤 的 输入 。 


7.3 练习 


7.1 为 什么 在 实验 的 开始 建立 清晰 的 目标 是 重要 的 ? 


7.2 根据 你 想 进行 的 实验 ， 试 举 一 个 目标 定义 的 例子 。 
7.3 实验 情境 为 什么 重要 ? 


7.4 ”如 何 刻画 实验 情境 ? 


7.5 试 解释 一 个 研究 系列 如 何 用 作 技 术 转 移 ? 
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计划 





确定 实验 范围 后 ， 就 要 着 手 制 定 实 验 计划 。 确 定 范围 是 实验 的 基础 一 一 明确 为 什 
么 要 做 这 个 实验 ， 而 计划 则 是 为 如 何 开展 实验 做 准备 的 。 

与 所 有 的 工程 活动 一 样 ， 实 验 也 要 做 计划 ， 然 后 要 按 计划 执行 并 控制 实验 ， 否 则 
实验 的 结果 会 受到 干扰 甚至 破坏 。 

实验 的 计划 阶段 可 以 分 为 7 个 步骤 ， 其 输入 是 已 经 定义 的 目标 ， 见 第 7 章 。 根 据 
目标 定义 ， 在 情境 选择 步骤 中 挑选 开展 实验 的 环境 。 接 下 来 进行 假设 构建 ， 然 后 在 变 
量 选 择 中 确定 独立 变量 和 非 独立 变量 ， 并 进行 主体 王选 。 根 据 假设 和 变量 选择 确定 合 
适 的 实验 设计 类 型 。 之 后 要 准备 合适 的 实验 工具 来 实际 开展 实验 ， 最 后 是 实验 的 有 效 
性 评价 。 计 划 的 过 程 可 以 是 迭代 的 ， 直 到 完成 实验 设计 。 计 划 阶 段 的 概览 见 图 8-1。 





图 8-1 计划 阶段 概览 


8. 1 ”情境 选择 


为 了 使 实验 结果 具有 最 好 的 通用 性 ， 应 该 由 专业 人 士 在 规模 较 大 且 真 实 的 软件 项 
目 中 开展 实验 。 然 而 ， 实 验 总 是 有 风险 的 ， 例 如 ， 新 方法 可 能 并 不 如 愿 ， 还 会 导致 项 
目 延期 。 通 常 可 以 在 实际 项 目 之 外 并 行 运行 一 个 离线 项 目 作 为 备 选 ， 这 可 以 降低 风险 ， 
但 增加 了 额外 的 成 本 。 一 种 经 济 的 方式 是 用 学 生来 执行 这 样 的 项 目 。 这 种 项 目 既 便宜 
也 更 容易 控制 ， 但 较 之 由 更 多 不 同 经 验 的 专业 人 士 执行 的 项 目 ， 前 者 更 直接 地 设 定 了 
一 个 确定 性 的 情境 。 此 外 ， 这 样 的 项 目 很 少 解决 实际 问题 ， 由 于 成 本 和 时 间 的 限制 ， 
其 规模 往往 像 个 玩具 。 情 境 选 择 中 的 取舍 取决 于 我 们 希望 研究 在 特定 的 环境 下 有 效 ， 
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还 是 在 通用 的 软件 工程 领域 内 有 效 ， 进 一 步 分 析 见 8. 7 节 。 一 些 文献 也 讨论 了 用 学 生 
做 主体 开展 实验 的 取舍 和 折 中 问题 ， 如 Höst 等 人 的 [77]. 

因此 ， 实 验 情境 可 以 用 以 下 四 个 维度 来 刻画 : 

。 离线 与 在 线 ; 

。 学 生 与 专业 人 士 ; 

。 玩具 与 实际 问题 ; 

。 特殊 与 通用 。 

一 种 常见 的 实验 是 将 现 有 的 某 些 东 西 和 新 的 东西 进行 比较 ， 例 如 ， 现 有 的 审查 方 
法 和 一 个 新 方法 的 比较 [18，136，139]。 这 种 类 型 的 研究 通常 与 两 个 问题 相关 。 第 
一 ， 什 么 是 现 有 的 方法 ? 它 通常 已 经 应 用 了 一 段 时 间 ， 但 没有 很 好 地 文档 化 ， 并 且 往 
往 在 应 用 中 存在 不 一 致 问题 。 第 二 ， 学 习 新 方法 可 能 会 影响 现 有 方法 的 应 用 方式 。 

与 之 相关 地 ， 为 了 使 结果 有 效 ， 在 计划 时 ， 我 们 还 要 考虑 的 问题 是 实验 的 参与 者 。 


8.2 假设 构建 


实验 统计 分 析 的 基础 是 假设 检验 。 要 形式 化 地 陈述 假设 ， 并 根据 实验 过 程 中 收集 
的 数据 在 可 能 的 情况 下 拒绝 假设 。 如 果 假 设 可 以 被 拒绝 ， 就 可 依据 给 定 风 险 下 的 假设 
检验 做 出 结论 。 

在 计划 阶段 ， 实 验 定义 可 以 进一步 形式 化 地 描述 为 假设 ， 包 括 以 下 两 个 假设 : 

(1) 原 假 设 (Null) 。 原 假设 记 为 Hu。， 表 示 在 实验 设 定 下 ,没有 真正 潜在 的 趋势 
或 者 模式 ， 我 们 所 观察 到 的 不 同 是 偶然 的 。 这 是 实验 希望 以 尽 可 能 显著 的 统计 意义 拒 
绝 的 假设 。 例 如 ， 假 设 一 种 新 审查 技术 发 现 故障 的 平均 数目 和 以 前 技术 发 现 的 一 样 多 ， 
亦 即 Ho: jw old EHn news EP u 表示 平均 值 ，N 表示 发 现 的 故障 数 。 

(2) 备 择 假设 (Alternative) 。 备 择 假设 记 为 有 ,，Hl 等 ， 是 一 个 希望 原 假设 不 成 立 
的 假设 。 例 如 ， 假 设 新 审查 技术 发 现 故 障 的 平均 数目 大 于 以 前 技术 发 现 的 。 亦 即 H : 
HN old SHN newo 

各 种 文献 中 介绍 了 大 量 不 同 的 统计 检验 方法 ， 可 以 用 来 评价 实验 的 结果 。 应 该 根 
据 上 述 假设 的 情况 选择 合适 的 统计 检验 技术 ， 参 见 10. 3 节 的 详细 介绍 。 

假设 检验 也 有 各 种 风险 ， 可 能 拒绝 了 一 个 真 假设 ， 也 可 能 接受 了 一 个 错误 假设 。 
通常 称 为 1 类 错误 和 I 类 错误 。 

(1) I 类 错误 (Type-I-error)。I 类 错误 指 统 计 检 验 认 为 存在 的 模式 或 者 关系 实际 
上 是 不 存在 的 。 亦 即 1 类 错误 的 概率 可 以 表示 为 

P(I 类 错误 ) = 已 (拒绝 Hy lH) AH) 

在 上 面 的 例子 中 , I 类 错误 是 指 尽 管 两 个 方法 发 现 故障 的 平均 数目 是 一 样 的 ,但 
拒绝 Hy 的 概率 。 

(2) 开 类 错误 (Type-II-error)。II 类 错误 指 统计 检验 认为 不 存在 的 模式 或 者 关系 
实际 上 是 存在 的 。 亦 即 I 类 错误 的 概率 可 以 表示 为 
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已 ( 开 类 错误 ) =P( 不 拒绝 Hy | Ay 为 假 ) 

在 上 面 的 例子 中 ，II 类 错误 是 指 尽管 两 个 方法 发 现 故障 的 平均 数目 不 一 样 ,但 没 
有 拒绝 Hy 的 概率 。 

错误 的 大 小 取决 于 各 种 因子 ， 壁 如 统计 检验 在 收集 的 数据 中 揭示 一 个 存在 模式 的 
能 力 ， 称 为 统计 检验 效能 (power) 。 

统计 检验 效能 是 当 Ay 为 假 时 ， 检 验 认为 存在 这 个 模式 的 概率 。 实 验 应 该 选择 检验 
效能 尽 可 能 高 的 检验 方法 ， 效 能 可 以 表示 为 : 

Power = P( 拒 绝 Hol Ho XB) =1-P(I 类 错误 ) 
所 有 因子 都 应 该 在 实验 计划 时 考虑 到 。 


8.3 变量 选择 

在 设计 开始 前 ， 还 需要 选择 独立 变量 和 非 独立 变量 。 

独立 变量 指 那些 在 实验 中 可 以 控制 和 改变 的 变量 ， 正 确 地 选择 变量 并 非 易 事 ， 通 
常 需要 专业 知识 。 这 些 变量 应 该 对 非 独立 变量 有 影响 ， 并 且 是 可 控制 的 。 独 立 变 量 和 
非 独 立 变 量 的 选择 通常 是 同时 或 者 逆向 进行 的 。 独 立 变 量 的 选择 还 包括 度量 单位 的 选 
择 、 变 量 的 范围 ， 以 及 检验 的 可 信 水 平 。 

处 置 的 效果 用 非 独 立交 量度 量 ， 通 常 实验 只 有 一 个 非 独 立 变量 ， 并 且 直 接 从 假设 
中 派生 出 来 。 有 些 变量 通常 不 能 直接 度量 ， 而 必须 用 间接 度量 代替 。 要 仔细 验证 间接 
度量 ， 它 们 会 影响 实验 结果 。 选 择 好 独立 变量 后 ， 可 以 进一步 完善 假设 。 独 立 变量 的 
选择 也 意味 着 确定 了 度量 单位 和 变量 范围 。 只 选择 一 个 非 独 立 变量 的 原因 是 ， 如 果 有 
多 个 非 独 立 变量 ， 则 会 出 现 “钓鱼 与 出 错 率 ” 的 现象 ， 这 会 导致 在 讨论 有 效 性 威胁 
时 ， 因 情况 太 复杂 而 导致 风险 。 具 体 见 8. 8. 1 节 的 介绍 。 











8.4 主体 甄选 


对 开展 实验 的 主体 进行 甄选 是 非常 重要 的 【144] ， 将 直接 关系 到 实验 的 结果 。 要 
让 实验 结果 在 预先 期 望 的 范围 内 有 效 ， 选 择 的 主体 就 必须 要 能 代表 这 个 范围 ， 通 常 称 
为 从 某 个 总 体 中 选择 样本 。 

从 总 体 抽样 可 以 是 概率 抽样 或 者 非 概率 抽样 ， 两 者 的 不 同 在 于 ， 选 择 每 种 主体 的 
概率 在 概率 抽样 中 是 已 知 的， 而 在 非 概率 抽样 中 未 知 。 概 率 抽样 技术 (Probability sam- 
pling technique) 的 例子 如 下 : 

© 简单 随机 抽样 (Random sampling): 从 总 体 列表 中 随机 选择 主体 。 

© 系统 抽样 (System sampling): 随机 从 总 体 列 表 中 选择 第 一 个 主体 ， 然 后 每 隔 n 
个 选择 一 个 作为 主体 。 

分 层 随 机 抽样 (Stratified random sampling): 根据 一 个 已 知 的 分 布 ， 将 总 体 划分 
为 否 干 组 或 者 层 ， 在 每 层 随机 选择 。 
非 概 率 抽样 技术 (non-probability sampling technique) 的 例子 如 下 : 
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e 便利 抽样 (Convenience sampling): 选择 最 接近 和 最 方便 的 人 员 作 为 主体 。 
© 配额 抽样 ( Quota sampling): 从 总 体 的 不 同 元 素 中 选取 主体 ， 而 在 每 一 种 元 素 
中 一 般 用 便利 抽样 进行 选择 。 
样本 规模 对 结果 的 影响 也 是 很 重要 的 ， 样 本 越 大 ， 结 果 出 错 的 可 能 性 越 低 。 样 本 
规模 也 同时 会 直接 影响 统计 检验 的 效能 ， 见 10.3.1 节 。 选 择 样 本 规模 的 基本 原则 
如 下 : 
© 如 果 总 体 的 变化 性 较 大 ， 则 需要 的 样本 规模 也 较 大 。 
© 数据 分 析 可 能 影响 样本 规模 的 选择 ， 因 此 也 要 考虑 实验 设计 阶段 的 数据 分 析 
技术 。 
8.5 实验 设计 
应 用 统计 分 析 方 法 分 析 收 集 到 的 数据 并 解释 结果 ， 才 能 得 到 有 意义 的 实验 结论 。 
详细 的 介绍 见 第 10 章 。 要 得 到 最 好 的 实验 ， 必 须 仔 细 地 计划 和 设计 实验 。 应 用 什么 样 


的 统计 分 析 技 术 还 取决 于 实验 设计 和 使 用 的 度量 单位 ， 见 第 3 章 。 可 见 ， 设 计 和 解释 
是 密切 相关 的 。 


8. 5.1 实验 设计 的 选择 


实验 由 一 组 对 处 置 的 检验 组 成 。 要 想 从 实验 中 获得 最 大 的 收益 ， 必 须 精 心计 划 和 
设计 一 系列 检验 。 实 验 设 计 中 应 该 描述 如 何 组 织 和 执行 这 些 检验 。 更 正式 地 ， 我 们 可 
以 用 一 组 检验 来 定义 实验 。 

如 上 所 述 ， 设 计 和 统计 分 析 是 密切 相关 的 ， 设 计 的 选择 会 影响 分 析 ， 反 之 亦 然 。 
在 设计 实验 时 ， 要 根据 假设 找到 合适 的 统计 分 析 技 术 ， 以 拒绝 原 假设 。 要 根据 统计 技 
术 的 适用 条 件 ( 壁 如 度量 的 单位 ) 以 及 应 用 的 对 象 和 使 用 的 主体 来 进行 实验 设计 。 同 
时 ， 要 确保 处 置 的 效果 是 可 见 的 。 实 验 设计 还 要 确定 必须 要 进行 的 检验 数量 。 合 适 的 
实验 设计 也 是 该 实验 可 以 重复 的 基础 ， 以 下 两 节 ， 我 们 提出 了 一 个 通用 的 设计 原则 和 
一 些 标准 的 设计 类 型 。 


8.5.2 通用 设计 原则 


实验 设计 时 要 考虑 很 多 方面 。 通 常 的 设计 原则 有 随机 策略 、 分 块 阻 断 和 均衡 
设计 ， 大 多 数 的 实验 混合 采用 这 些 原则 ， 下 面 我 们 用 一 个 例子 来 解释 这 些 常 规 的 
设计 原则 。 

例子 : 某 公司 要 做 一 个 实验 ， 调 查 若 采 用 面向 对 象 的 设计 代替 公司 标准 的 设计 原 
则 ， 对 程序 可 靠 性 将 产生 的 影响 。 用 程序 A 作为 实验 对 象 ， 实 验 设计 是 “ 单 对 象 多 检 
验 ” 类 型 ， 见 第 7 章 。 

随机 策略 (Randomization): 随机 策略 是 最 重要 的 实验 设计 原则 之 一 。 所 有 数据 分 
析 的 统计 方法 都 要 求 观察 到 的 数据 来 自 于 独立 的 随机 变量 。 要 满足 这 个 需要 ， 就 必须 








随机 化 。 随 机 策略 可 应 用 于 对 象 、 主 体 的 分 配 以 及 检验 执行 的 顺序 等 。 随 机 化 是 为 了 
平均 一 些 因素 的 影响 ， 也 可 以 用 于 选择 代表 总 体 利益 的 主体 。 

示例 : 从 公司 可 用 的 设计 人 员 中 随机 选取 一 些 人 员 作 为 代表 (这 是 实验 的 主体 ) , 
并 随机 分 配给 每 一 个 处 置 (面向 对 象 设计 和 公司 标准 的 设计 原则 ) 。 

分 块 阻 断 (Blocking); 有 些 时 候 ， 某 些 因子 对 实验 反应 会 产生 影响 ， 但 我 们 对 这 
种 影响 没有 兴趣 。 如 果 这 种 影响 是 已 知 且 可 以 控制 的 ， 就 可 以 采用 分 块 阻 断 的 设计 技 
术 。 分 块 阻 断 用 于 在 处 置 比较 时 ， 系 统 性 地 消除 一 些 不 期 望 的 影响 ， 在 同一 块 内 ， 这 
些 不 期 望 的 影响 是 相同 的 ， 所 以 我 们 可 以 研究 同一 块 内 不 同 处 置 的 效果 。 分 块 阻 断 的 
目的 是 消除 研究 中 不 期 望 的 影响 ， 因 此 不 关注 块 之 间 的 影响 。 这 种 技术 可 以 提高 实验 
的 精度 。 

示例 : 参加 实验 的 人 员 (EK) 有 不 同 的 经 验 。 一 些 人 有 面向 对 象 设计 的 经 验 ， 
而 另外 一 些 人 没有 。 要 最 小 化 经 验 对 实验 结果 的 影响 ， 这 些 人 可 以 分 为 两 组 (两 块 ) ， 
一 组 有 面向 对 象 设计 的 经 验 ， 另 外 一 组 没有 。 

均衡 设计 (Balancing): 如 果 给 每 个 处 置 分 配 同样 数目 的 主体 ， 就 是 一 个 均衡 设 
计 。 均 衡 设 计 是 我 们 所 期 望 的 ， 因 为 它 可 以 简化 统计 分 析 并 增强 分 析 的 效能 ， 但 不 是 
必需 的 。 

例子 : 如 果实 验 采 取 均 衡 设 计 ， 就 意味 着 每 个 组 〈 块 ) 的 实验 人 数 是 一 样 的 。 
8.5.3 标准 设计 类 型 

本 节 介 绍 最 常见 的 实验 设计 。 设 计 范 围 从 只 有 单一 因子 的 简单 实验 ， 到 有 多 个 因 
子 的 复杂 实验 。Montgomery Æ [125] 中 深入 讨论 过 实验 设计 ，Juristo 和 Moreno 更 进 
一 步 地 在 [88] 中 详尽 阐述 了 软件 工程 的 实验 设计 。 针 对 大 多 数 设计 ， 本 文 给 出 一 个 
示例 简洁 明了 地 阐述 假设 ,并 对 每 一 个 设计 建议 了 适用 的 统计 分 析 方 法 。 本 节 介 绍 的 
设计 类 型 适用 于 : 

© 单 因子 双 处 置 ; 

。 单 因子 多 处 置 ; 

© 双 因 子 双 处 置 ; 

。 多 因子 双 处 置 。 

单 因子 双 处 置 。 这 些 实验 希望 对 比 两 个 处 置 ， 最 常见 的 是 比较 每 个 处 置 非 独立 变 
量 的 均值 ， 下 面 的 标记 经 常用 到 : 

ki” 处置 i 的 非 独立 变量 的 均值 。 

yy ”处置 i 的 非 独 立 变量 的 第 个 度量 值 。 

实验 示例 : 实验 将 调查 是 否 一 个 新 的 设计 方法 生产 的 软件 较 之 用 以 前 设计 方法 生 
产 的 软件 具有 更 高 的 质量 。 实 验 中 的 因子 是 设计 方法 ,处 置 是 采用 新 的 和 老 的 设计 方 
法 ， 非 独立 变量 可 以 是 开发 中 的 缺陷 数 。 

完全 随机 设计 (Completely randomized design ) 。 这 是 一 个 基本 的 实验 设计 ， 用 于 
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比较 两 个 处 置 的 均值 。 设 计时 ， 两 个 处 置 作用 于 同样 的 对 象 ， 并 且 为 每 个 处 置 随机 指 
派 主 体 ， 见 表 8-1。 每 个 主体 只 使 用 一 个 处 置 产生 对 象 。 如 果 每 个 处 置 的 主体 数量 相 
同 ， 这 个 设计 还 是 均衡 的 。 


表 8-1 为 随机 设计 给 处 置 分 配 主体 的 例子 


























假设 示例 : 

Ho: Ai =m 

Ay: y*m, H <p RÉ p >m 

分 析 示 例 : t, Mann-Whitney 检验 ， 见 10.3 节 。 

成 对 比较 设计 (Paired comparison design) 。 有 时 ， 可 以 通过 比较 匹配 的 实验 材料 
对 来 提高 实验 的 精度 。 在 这 样 的 设计 中 ， 每 一 个 主体 采用 两 种 处 置 产生 同样 的 对 象 ， 
有 时 也 称 为 交叉 设计 。 这 种 设计 会 面临 一 些 挑战 ， 我 们 将 在 10. 4 节 中 结合 案例 做 进 
一 步 讨 论 。 为 了 最 大 程度 降低 主体 采用 处 置 顺序 而 产生 的 影响 ， 应 该 随机 地 给 每 个 
主体 指定 顺序 ， 见 表 8-2。 这 种 方法 并 不 一 定 适用 于 所 有 比较 的 例子 ， 壁 如 当主 体 
会 从 第 一 个 处 置 获得 太 多 执行 第 二 个 处 置 的 信息 时 。 实 验 的 比较 可 以 是 观察 成 对 度 
量 的 差异 性 是 否 为 零 。 如 果 两 个 处 置 开始 时 的 主体 数量 相同 ， 这 个 设计 也 是 均衡 的 。 


表 8-2 为 配对 设计 分 配 处 置 的 例子 





























假设 示例 : 

d; iy -yo2j 并 且 As 是 差异 的 均值 。 

Ho: ba = 9 

Ay: ja 0, pa< 0 或 者 > 0 

分 析 示 例 : 配对 上 =- 检验， 符号 检验 ，Wilcoxon 检验 ， 见 10.3 节 。 

单 因子 多 处 置 。 和 只 有 两 个 处 置 的 实验 一 样 ， 多 处 置 实验 也 希望 对 处 置 结果 进行 





比较 ， 通 常 是 比较 处 置 的 均值 。 
实验 示例 : 实验 调查 使 用 不 同 程序 设计 语言 编写 的 软件 的 质量 。 实 验 因 子 是 程序 
设计 语言 ， 处 置 可 以 是 C、C ++ 和 Java, 
完全 随机 设计 (Completely randomized design) 。 完 全 随机 设计 要 求实 验 以 一 种 随 
机 的 顺序 进行 ， 因 此 在 实验 环境 中 使 用 的 处 置 要 尽 可 能 统一 。 设 计 要 求 所 有 处 置 作 用 
于 一 个 对 象 ， 而 所 有 主体 随机 分 配给 各 个 处 置 ， 见 表 8-3。 


表 8-3 为 主体 分 配 处 置 的 例子 
































主体 处 置 1 处 置 2 处 置 3 
1 E X - 
2 X 
3 ER X 
4 X 
5 “jk E X 
6 X 


假设 示例 ， 这 里 a 是 处 置 数 : 

Ho: m= Ha = M3 =" = Ma 

Ay: ji 关 ;， 至 少 存在 一 个 (i, j) 对 

分 析 示 例 : ANOVA (Analysis OF VAriance) 方差 分 析 检 验 与 Kruskal-Wallis 检验 ， 
见 10.3 节 。 

随机 完全 分 块 阻 断 设计 (Randomized complete block design) 。 如 果 主 体 间 的 差异 性 
很 大 ， 用 随机 完全 分 块 阻 断 设计 可 以 最 小 化 其 影响 。 在 实验 设计 中 ， 每 个 主体 都 会 使 
用 所 有 处 置 ， 因 此 形成 了 一 个 更 加 同 构 的 实验 单元 。 也 就 是 说 ， 在 主体 上 对 实验 进行 
分 块 ， 见 表 8 -4。 块 代表 了 随机 化 的 结果 。 这 种 实验 设计 ， 让 所 有 处 置 作 用 于 一 个 对 
象 ， 而 主体 使 用 处 置 的 顺序 是 随机 分 配 的 ， 上 面 介绍 的 成 对 比较 设计 是 当 处 置 只 有 两 
个 时 的 特例 。 随 机 完全 分 块 阻 断 设 计 是 最 常用 的 一 种 实验 设计 。 


表 8-4 为 主体 分 配 处 置 的 例子 





























假设 示例 ， 这 里 a 是 处 置 数 : 
Ho: HI =p =W = … = 人 Na 
H: mi*m, BREF (i, j) 对 
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分 析 示 例 : ANOVA 方差 分 析 检 验 与 Kruskal-Wallis 检验 ， 见 10.3 节 。 

双 因 子 。 当 实验 因子 增加 到 两 个 时 ， 实 验 会 变 得 比较 复杂 。 单 因子 实验 中 的 单一 
假设 会 分 解 成 三 个 。 针 对 两 个 因子 各 有 一 个 假设 ， 另 外 一 个 针对 两 个 因子 之 间 的 交互 

[97] 作用 。 通 常 使 用 下 面 的 标记 : 

T; 处 置 i 在 因子 A 的 效果 。 

B; 处 置 / 在 因子 B 的 效果 。 

(7B) i Ti 和 交互 作用 的 效果 。 

2 x2 析 因 设计 (2 x2factorial design) 。 这 种 实验 中 有 两 个 因子 ， 每 一 个 都 有 两 个 
处 置 。 设 计时 ， 将 主体 随机 分 配给 每 一 个 组 合 处 置 ， 见 表 8-5。 


表 8-5 2 x2 析 因 设计 的 例子 








AF A 
处 置 A1 处 置 A2 
因子 B 处 置 Bl 主体 4.6 主体 1.7 
处 置 B2 主体 2.3 主体 5.8 


实验 示例 : 实验 基于 “好 ”和 “ 差 ” 的 需求 文档 ,分 别 调查 用 结构 化 和 面向 对 象 
方法 开发 的 设计 文档 的 可 理解 性 。 第 一 个 因子 A 是 设计 方法 ， 第 二 个 因子 B 是 需求 文 
档 。 因 为 有 两 个 因子 、 两 个 处 置 ， 并且 每 种 组 合 都 是 可 能 的 ， 所 以 用 2 x2 析 因 设计 。 

假设 示例 : 

Ho: 71 = Tz =0 

H: 至 少 存在 一 个 7; 关 0 

Hy: Bı = B, =0 

H: FoF E— A p0 

H: 对 所 有 i, j, (7B); =0 

H: 至 少 存在 一 个 (76); =0 

分 析 示 例 : ANOVA 方差 分 析 检 验 , 见 10. 3 节 。 

两 阶段 谈 套 设计 (Two-stage nested design)。 对 于 一 个 因子 (例如 A) 的 不 同 处 
置 ， 如 果 男 一 个 因子 (例如 B) 在 实验 中 是 相似 但 不 完全 相同 的 ， 则 需要 使 用 两 阶段 
藤 套 或 者 层次 设计 (Hierarchical design), AF B 般 套 在 因子 A 中 。 两 阶段 藤 套 设计 有 两 
个 因子 ， 每 个 因子 有 两 个 或 多 个 处 置 ， 实 验 设计 和 分 析 与 2 x2 析 因 设计 一 样 ， 见 表 8-6。 


表 8-6 B 肉 套 于 A 的 二 阶段 嵌 套 设计 例子 
因子 A 




















实验 示例 : 实验 调查 单元 测试 对 分 别 用 函数 式 编程 语言 和 面向 对 象 编程 语言 编写 
的 易 错 程序 和 不 易 错 程序 的 测试 效率 。 第 一 个 因子 A 是 编程 语言 ， 第 二 个 因子 B 是 程 
序 的 易 错 倾向 。 因 为 函数 式 编程 语言 的 易 错 / 不 易 错 和 面向 对 象 编程 语言 的 易 错 /不 易 
错 是 不 同 的 ， 所 以 这 个 实验 的 设计 必须 是 散 套 的 。 

多 因子 。 很 多 情况 下 ， 实 验 必须 考虑 多 个 因子 ， 因 此 ， 非 独立 变量 的 效果 不 仅 单 
独 依赖 于 每 个 因子 ， 还 依赖 于 因子 间 的 相互 作用 ， 这 些 相 互 作 用 可 以 是 两 个 或 多 个 因 
子 的 交互 。 这 种 设计 类 型 称 为 析 因 设计 。 本 节 简 要 介绍 这 种 设计 类 型 ， 每 个 因子 只 有 
两 个 处 置 。 各 因子 有 多 处 置 的 设计 见 Montgomery 的 介绍 [125], 

24 析 因 设 计 (24factorial design) 。2 x2 析 因 设计 是 2* 析 因 设计 的 特例 ， 即 =2 的 
情况 。2* 析 因 设计 有 个 因子 ， 每 个 因子 有 两 个 处 置 ， 也 就 意味 着 有 2 种 不 同 处 置 的 
组 合 。 必 须 检 验 所 有 的 组 合 ， 才 能 评价 个 因子 的 有 影响。 主体 应 该 随机 地 分 配给 各 个 
组 合 ,一 个 2 析 因 设计 的 例子 见 表 8-7。 


表 8-7 23 析 因 设计 例子 
































这 种 设计 类 型 的 假设 和 分 析 与 2 x 2 析 因 设计 一 样 ， 更 多 2* 析 因 设计 的 细节 ， 
Montgomery 在 [125] 中 做 了 详尽 的 介绍 。 

24 部 分 析 因 设 计 (24 fractional factorial design), Æ 2! 析 因 设计 中 ， 随 因子 数目 的 
增加 ， 因 子 组 合 的 数目 会 急速 增长 。 例 如 2 析 因 设计 有 8 SAA, m 2* ARIMA 
16 个 组 合 。 通 常 可 以 假定 某 些 高 阶 相互 作用 的 影响 是 可 以 忽略 的 ， 而 主要 影响 和 低 阶 
交互 影响 可 以 通过 运行 部 分 或 者 完全 析 因 实验 获得 ， 这 种 设计 类 型 称 为 部 分 析 因 设计 。 

部 分 析 因 设计 基于 三 个 基本 想法 : 

e 影响 的 稀疏 性 原理 : 很 多 情况 下 ， 系 统 是 由 某 些 主要 和 低 阶 交互 影响 驱动 的 。 

© 投射 属性 : 可 以 通过 在 部 分 析 因 设计 中 选择 其 重要 因子 的 子 集 而 获得 一 个 较 强 

的 设计 。 

© 序 贯 实验 : 可 以 通过 顺序 运行 两 个 或 多 个 部 分 析 因 分 析 而 获得 一 个 较 强 的 

设计 。 


98 
99 
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这 些 部 分 析 因 分 析 设 计 的 主要 用 途 是 做 得 查实 验 ， 实 验 的 目的 是 识别 对 系统 影响 
较 大 的 因子 ， 部 分 析 因 设计 的 例子 有 以 下 两 种 。 

2* 析 因 设 计 的 1/2 部 分 析 因 设计 : 选择 2 析 因 设计 中 1/2 的 组 合 ， 如 果 移 除 一 个 
因子 ， 则 剩 下 的 组 合 就 是 一 个 完整 的 2 … 析 因 设 计 。 见 表 8-8。 主 体 随 机 分 配给 选择 
的 组 合 。 在 这 个 设计 中 有 两 个 备 选 的 切片 ， 如 果 两 个 切片 顺序 运行 ， 结 果 就 是 一 个 完 
整 的 2* 析 因 设计 。 





表 8-8 23 析 因 设计 中 一 个 1/2 切片 的 例子 




















因子 A 因子 B 因子 C 主体 

Al B1 @ EE 2,3 
T 

A2 Bl Cl | 1, 8 

Al | B2 | Cl 5, 6 

A2 B2 C2 A, 7 











2* 析 因 设计 的 1/4 部 分 析 因 设计 : 选择 2 析 因 设计 中 1/4 的 组 合 ， 如 果 移 除 两 个 
因子 ， 则 剩 下 的 组 合 就 是 一 个 完整 的 2 一 析 因 设计 。 见 表 8-9。 主 体 随机 分 配给 选择 
的 组 合 。 在 这 个 设计 中 有 两 个 备 选 的 切片 ， 如 果 两 个 切片 顺序 和 运行， 结果 就 是 一 个 完 
整 的 2* 析 因 设计 。 不 过 ， 由 于 不 是 一 个 完整 的 析 因 设 计 ，1/4 设计 中 的 因子 间 可 能 存 
在 依赖 关系 。 


表 8-9 2° 析 因 设计 中 一 个 1/4 切片 的 例子 












































例如 ， 在 表 8-9， 因 子 D 依赖 于 因子 A 和 B 的 组 合 ， 可 以 看 出 所 有 Al 和 B1 的 组 
合 都 有 D2， 以 此 类 推 。 同 样 ， 因 子 依赖 于 因子 A 和 C 的 组 合 。 因 此 ， 如 果 移 除 C 
ME (或 者 B 和 D) ， 则 会 变 成 两 个 重复 的 2 一 析 因 设计 ， 而 不 是 一 个 2 析 因 设计 。 
如 果 移 除 D 和 下， 则 可 获得 后 者 。 在 表 8-9 中 可 以 看 到 ， 如 果 移 除 C AME, TH 
组 合 和 后 四 行 是 等 价 的 ， 由 此 可 以 识别 出 两 个 重复 的 2* 析 因 设计 。 

主体 随机 分 配给 选择 的 组 合 ， 这 个 设计 中 有 四 个 备 选 切片 ， 如 果 四 个 都 顺序 使 用 ， 
其 结果 就 是 一 个 完整 的 2 析 因 设计 。 如 果 两 个 切片 顺序 使 用 ， 就 是 一 个 1/2 析 因 设计 。 





关于 部 分 析 因 设计 的 更 多 详细 内 容 见 Montgomery [125 ]。 

总 之 ， 正 确 的 实验 设计 选择 是 至 关 重 要 的 ， 糟 糕 的 设计 无 疑 会 影响 得 到 正确 的 实 
验 结论 的 可 能 性 。 而 且 ， 设 计 会 设置 一 些 采 用 统计 方法 的 限制 。 最 后 要 强调 的 是 ， 要 
尽量 使 用 简单 的 设计 ， 并 且 尽 最 大 可 能 地 使 用 可 用 的 主体 ， 这 一 点 非常 重要 。 


8.6 实验 工具 


实验 需要 的 工具 一 般 有 三 种 类 型 : 对 象 、 指 南 和 度量 工具 。 在 计划 阶段 应 该 选择 
需要 的 辅助 工具 ， 并 且 特 殊 的 实验 工具 应 在 实验 前 开发 出 来 。 

实验 对 象 可 以 是 规格 说 明 书 、 代 码 文档 等 。 做 实验 计划 时 ， 一 个 很 重要 的 工作 就 
是 选择 合适 的 实验 对 象 ， 例 如 在 一 个 关于 审查 的 实验 中 ， 被 检 对 象 的 缺陷 数 必须 是 已 
知 的 。 可 以 植 人 缺陷 或 者 用 已 知 缺陷 数目 的 文档 。 例 如 ， 可 以 用 一 个 已 知 缺陷 的 、 真 
实 的 早期 版 本 的 文档 。 

指南 用 于 指导 参加 人 员 进 行 实验 ， 一 般 包 括 过 程 描 述 、 检 查 单 等 。 如 果实 验 中 要 
比较 不 同方 法 ， 那 么 说 明 如 何 使 用 这 些 方法 的 指南 也 需要 提前 准备 。 此 外 ， 参 与 者 还 
应 该 接受 使 用 这 些 方法 的 培训 。 

度量 是 收集 数据 时 进行 的 ， 在 人 力 密集 型 实验 中 ， 数 据 通常 通过 人 工 或 者 访谈 的 
方式 获得 。 计 划 任 务 包括 准备 相关 的 表格 和 访谈 提问 单 ， 并 且 要 确认 这 些 表 格 和 提问 
单 适 用 于 实验 参与 者 不 同 的 背景 和 技能 。 练 习 中 使 用 了 一 个 收集 主体 经 验 信息 的 表格 
样 例 ， 见 附录 A 中 的 表 A-1。 

实验 辅助 工具 的 一 般 目标 是 为 执行 和 监控 实验 提供 手段 和 方法 ,缺乏 合适 工具 的 
实验 可 能 失控 。 无 论 这 些 工具 怎样 使 用 ， 实 验 结果 都 应 该 是 独立 且 相 同 的 。 如 果 工 具 
影响 到 实验 的 效果 ， 实 验 结果 将 是 无 效 的 。 

实验 验证 将 在 8.7 节 详 细 介 绍 ， 工 具 准 备 的 细节 见 9. 1.2 节 和 9.2.2 节 。 


8.7 ”有效 性 评价 


实验 结果 中 备 受 关注 的 一 个 问题 是 实验 的 有 效 性 。 为 了 使 实验 结果 充分 有 效 ， 在 
计划 阶段 必须 考虑 与 有 效 性 相关 的 问题 。 充 分 有 效 指 实验 结果 在 利益 群体 的 总 体 范围 
内 有 效 。 首 先 ， 结 果 应 该 在 获得 样本 的 群体 内 有 效 ; 其 次 ,该 结果 有 可 能 推广 到 更 广 
泛 的 群体 。 当 结果 在 我 们 期 望 的 总 体 中 有 效 时 ， 该 结果 是 充分 有 效 的 。 

充分 有 效 并 不 意味 着 最 大 范围 有 效 。 在 某 个 组 织 内 进行 的 实验 可 以 设计 为 只 针对 
该 组 织 特 有 的 问题 ， 并 且 只 要 结果 在 特定 的 组 织 范 围 内 有 效 就 足够 了 。 换 句 话 说， 如 
果 要 导出 更 加 通用 的 结论 ， 有 效 性 也 必须 覆盖 到 更 广 的 范畴 。 

对 实验 有 效 性 的 威胁 有 多 种 不 同 的 分 类 方法 。Campbell 和 Stanley 定义 了 两 种 类 
型 : 内 部 有 效 性 和 外 部 有 效 性 威胁 [32]. Cook 和 Campbell 随后 又 扩展 为 四 种 威胁 ， 
分 别 是 结论 、 内 部 、 结 构 和 外 部 有 效 性 威胁 [37] 。 前 一 种 分 类 在 一 些 文献 中 有 引用 ， 
但 后 一 种 更 适用 ， 因 为 它 更 容易 映射 到 实验 的 各 个 步骤 ， 见 图 8-2。 
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实验 目标 
ee i 
理论 层 
| 处 置 结 果 构 造 | 
独立 变量 非 独 立 变量 
实验 操作 





图 8-2 实验 的 原则 (由 Trochim [171] 改编) 


Cook 和 Cambell 提出 的 四 类 威胁 [37] 都 关联 到 实验 中 的 方法 问题 。 实 验 的 基本 
原则 见 图 8-2。 

顶层 是 理论 领域 ， 底 层 则 是 观察 区 域 。 实 验 的 目的 是 希望 基于 观察 到 的 现象 导出 
在 假设 中 定义 的 有 关 理 论 问题 的 结论 。 通 过 四 步 导 出 结论 ， 而 每 一 步 都 存在 一 类 威胁 ， 
可 能 影响 到 结果 的 有 效 性 。 

(1) 结论 有 效 性 。 这 里 的 有 效 性 关心 处 置 和 处 置 结果 之 间 的 关系 ， 期 望 在 给 定 的 
显著 性 水 平 下 ,确保 其 统计 关系 存在 。 

(2) 内 部 有 效 性 。 如 果实 验 观察 到 处 置 和 其 结果 之 间 的 关系 我 们 必须 确保 这 种 
关系 确实 是 一 种 因果 关系 ， 而 不 是 由 于 因子 失控 或 者 没有 度量 而 造成 的 结果 。 换 言 之 ， 
确信 该 结果 是 该 处 置 产生 的 。 

(3) 结构 有 效 性 。 这 里 关心 理论 和 观察 之 间 的 关系 ， 如 果 是 因果 关系 ， 则 必须 确 
保 两 件 事 : 处 置 良好 地 反映 了 原因 的 构造 ( 见 图 8-2 左 部 ) ， 并 且 @) 处 置 结 果 良 好 地 
反映 了 效果 的 构造 (JILE 8-2 右 部 ) 。 

(4) 外 部 有 效 性 。 外 部 有 效 性 关心 结论 的 通用 性 。 如 果 在 构造 的 原因 和 结果 之 间 
存在 因果 关系 ,那么 研究 结果 是 否 在 该 研究 范围 之 外 也 适用 ?是否 在 处 置 和 结果 之 间 
存在 关系 ? 

结论 有 效 性 有 时 也 称 为 统计 结论 有 效 性 [37] ， 相 对 于 定性 分 析 的 可 靠 性 ， 见 
5.4.3 节 。 对 结论 有 效 性 的 威胁 ,涉及 实验 得 到 的 关于 处 置 和 其 结果 之 间 的 关系 是 否 
正确 的 问题 ， 如 统计 检验 的 选择 、 样 本 规模 的 选择 、 实 现 和 度量 时 的 小 心 谨慎 等 。 

对 内 部 有 效 性 的 威胁 ， 主 要 关注 是 否认 定 了 一 些 原本 不 存在 的 因果 关系 ， 影 响 内 
部 有 效 性 的 因素 包括 : 主体 的 选择 和 分 类 ， 实 验 中 主体 如 何 工作 和 获得 酬金 ， 实 验 中 
是 否 发 生 过 一 些 特殊 的 事件 等 。 这 些 因素 都 可 能 导致 实验 因 受 到 干扰 而 表现 出 一 些 本 
不 属于 处 置 应 该 有 的 行为 。 

对 结构 有 效 性 的 威胁 是 指 实验 设置 实际 反映 的 所 研究 问题 结构 的 程度 。 例 如 ， 如 











果 用 大 学 里 所 修 计算 机 科学 课程 的 数目 来 度量 主体 在 程序 设计 语言 方面 的 经 验 ， 就 可 
能 是 一 个 糟糕 的 度量 ， 也 就 意味 着 结构 有 效 性 不 好 。 如 果 用 编程 实践 的 年 数 来 度量 可 
能 好 一 些 ， 也 就 意味 着 其 结构 有 效 性 好 一 些 。 

对 外 部 有 效 性 的 威胁 关心 实验 结果 在 实验 设置 以 外 的 通用 性 。 外 部 有 效 性 受 所 选择 
的 实验 设计 的 影响 ， 同 时 也 受 实验 对 象 和 主体 选择 的 影响 。 一 般 有 三 种 主要 风险 : 选择 
错误 的 主体 参加 实验 ， 在 错误 的 环境 开展 实验 ， 实 验 执 行 的 时 间 可 能 对 结果 产生 影响 。 

8. 8 节 给 出 了 威胁 有 效 性 的 详细 列表 。 这 个 列表 可 以 用 作 实 验 设计 时 的 检查 单 。 
在 有 效 性 评价 时 ， 应 该 对 照 每 一 项 检查 是 否 存 在 威胁 。 对 存在 的 威胁 ,我 们 可 以 解决 
也 可 以 接受 ， 事 实 上 ， 有 时 我 们 不 得 不 接受 某 些 威胁 。 实 现 一 个 没有 任何 威胁 的 实验 
几乎 是 不 可 能 的 ， 因 此 ， 有 些 只 能 接受 ， 但 应 在 解释 结果 时 说 明 。 不 同 威胁 类 型 之 间 
的 优先 级 将 在 8. 9 节 进 一 步 讨 论 。 


8.8 ”有效 性 威胁 的 详细 描述 


下 面 ， 基 于 Cook 和 Campbell [37] 的 研究 ， 我 们 将 列 出 对 实验 有 效 性 的 威胁 并 
进行 讨论 。 并 非 所 有 的 威胁 都 适用 于 所 有 的 实验 ， 这 个 列表 可 以 看 成 是 一 个 检查 单 。 
表 8-10 总 结 了 这 些 威胁 ， 一 种 备 选 的 不 完全 的 分 类 方案 见 表 8-11。 

表 8-10 Cook 和 Campbell [37] 总 结 的 有 效 性 威胁 











结论 有 效 性 内 部 有 效 性 

低 统计 效能 | 历史 

违反 统计 检验 的 假设 条 件 成 熟 性 

钓鱼 与 错误 率 测试 

度量 的 可 靠 性 工具 

处 置 实现 的 可 靠 性 统计 回归 效应 

实验 设置 中 的 随机 不 相干 性 甄选 

主体 的 随机 异 构 性 死亡 率 
因果 方向 的 歧义 性 
甄选 互 干扰 
处 置 传播 与 模仿 
处 置 补偿 均等 
补偿 对 抗 
BRET 

结构 有 效 性 外 部 有 效 性 

构造 前 解释 不 充分 选择 与 处 置 互 扰 

单一 操作 偏 人 设置 与 处 置 互 拓 

单一 方法 偏 估 历史 与 处 置 互 拓 

结构 和 结构 水 平 混淆 

不 同 处 置 互 拓 

测试 与 处 置 互 拓 

结构 间 受 限 通 用 性 

假设 猜测 

DEORE 





实验 者 预期 
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$ 8-11 Campbell 和 Stanley [32] 总 结 的 有 效 性 威胁 





内 部 有 效 性 外 部 有 效 性 
历史 选择 与 处 置 互 扰 
成 熟 性 历史 与 处 置 互 扰 
测试 设置 与 处 置 互 扰 
工具 不 同 处 置 间 互 扰 
统计 回归 效应 

Sie 





8.8.1 结论 有 效 性 


对 结论 有 效 性 的 威胁 主要 关注 那些 可 能 对 导出 正确 结论 造成 影响 的 问题 ， 这 些 结 
论 是 关于 处 置 及 其 结果 之 间 的 关系 的 。 

低 统计 效能 。 统 计 检 验 的 效能 表征 一 个 检验 可 以 从 数据 中 揭示 其 真实 模式 的 能 力 。 
如 果 效能 低 ， 则 得 出 错误 结论 的 风险 就 高 ， 参 见 8. 2 节 。 更 具体 而 言 ， 也 就 不 能 拒绝 
一 个 错误 的 假设 。 

违反 统计 检验 的 假设 条 件 。 某 些 检验 需要 一 些 前 提 假 设 ， 辟 如 正 态 分 布 和 独立 样 
本 。 违 反 假定 条 件 就 可 能 导致 错误 的 结论 。 有 一 些 统计 检验 在 前 提 假 设 方面 具有 相对 
较 好 的 鲁 棒 性 ， 具 体 见 第 10 章 。 

钓鱼 与 错误 率 。 这 个 威胁 包括 两 个 独立 的 部 分 。 搜 索 或 者 钓鱼 的 办 法 会 使 得 分 析 
人 员 不 再 独立 ， 而 研究 者 会 因为 寻找 指定 的 结果 而 影响 实验 结论 。 错 误 率 关心 实际 的 
显著 性 水 平 。 例 如 ， 在 0.05 的 显著 性 水 平 上 执行 三 个 调查 ， 整 体 的 显著 性 水 平 就 是 
1-(1-0.05)”=0.14。 所 以 在 执行 多 个 分 析 时 ， 应 该 调整 错误 率 (显著 性 水 平 ) 。 

度量 的 可 靠 性 。 实 验 的 有 效 性 高 度 依赖 于 度量 的 可 靠 性 。 传 递 下 去 ， 也 就 可 能 依 
赖 于 许多 因素 ， 比 如 粳 糕 的 问题 措辞 ， 不 好 的 实验 工具 或 者 工具 布局 。 基 本 原则 是 ， 
如 果 对 某 个 现象 做 两 次 度量 ， 两 次 的 结果 应 该 是 一 样 的 。 举 例 而 言 ， 代 码 行 比 功能 点 
度量 可 靠 ， 因 为 它 不 需要 人 工 判断 。 换 言 之 ， 客 观 度量 可 以 重复 得 到 同样 的 结果 ， 相 
比 主观 度量 更 可 靠 ， 参见 第 3 章 。 

处 置 实现 的 可 靠 性 。 处 置 的 实现 意味 着 主体 对 处 置 的 应 用 。 如 果 不 同 的 主体 或 者 
在 不 同 场合 应 用 处 置 的 实现 不 是 类 似 的 ， 则 会 给 实验 带 来 风险 。 因 此 处 置 在 不 同 场合 、 
由 不 同 主体 的 应 用 应 该 尽 可 能 标准 化 。 

实验 设置 中 的 随机 不 相干 性 。 实 验 设置 之 外 的 一 些 因素 可 能 会 干扰 结果 ， 例 如 室 
外 噪音 、 实 验 突然 中 断 等 。 

主体 的 随机 噶 构 性 。 不 同 研究 小 组 的 异 构 总 是 存在 的 。 如 果 异 构 严 重 ， 由 于 个 体 
差异 导致 的 变化 就 可 能 超过 处 置 不 同 所 产生 的 差异 ， 这 对 实验 结论 也 是 个 风险 。 另 一 
方面 ， 选 择 太 同 构 的 分 组 又 会 影响 实验 的 外 部 有 效 性 ， 见 下 面 的 讨论 。 例 如 ， 包 含 本 
科学 生 的 实验 会 降低 异 构 性 ， 因 为 他 们 具有 更 加 相似 的 知识 和 背景 ;但 同时 也 降低 了 
实验 的 外 部 有 效 性 ， 因 为 这 些 主体 不 是 从 一 个 足够 广泛 的 群体 中 选择 的 。 











8. 8.2 内 部 有 效 性 


对 内 部 有 效 性 的 威胁 指 可 能 在 研究 者 不 知情 的 情况 下 关乎 因果 关系 中 独立 变量 的 
风险 ， 因 此 将 威胁 到 处 置 及 其 结果 之 间 因 果 关 系 的 结论 。 有 时 ， 内 部 有 效 性 威胁 可 以 
分 为 三 类 : 单 组 威胁 、 多 组 威胁 和 社会 威胁 。 

单 组 威胁 (Single group thread) 。 这 种 威胁 存在 于 只 有 一 个 组 的 实验 中 ， 未 设计 不 
采用 该 处 置 的 对 照 组 。 那 么 ， 观 察 到 的 效果 究竟 是 处 置 产生 还 是 别 的 因素 导致 的 ? 在 
决策 时 会 有 以 下 一 些 问题 。 

历史 。 实 验 中 ， 可 能 会 在 不 同 的 时 间 对 同样 的 对 象 应 用 不 同 的 处 置 ， 那 么 其 风险 
是 ， 时 间 历 史 会 影响 实验 的 结果 ， 因 为 在 两 个 时 机 的 环境 可 能 不 一 样 。 例 如 ， 第 一 个 
时 机 是 节 后 第 一 天 或 者 事情 很 少 的 一 天 ， 而 另 一 个 时 机 是 正常 的 日 子 。 

成 熟 性 。 这 是 主体 随时 间 流 逝 具有 不 同 反 应 的 效果 。 例 如 主体 会 在 实验 中 受到 疲 
劳 、 枯 燥 等 负面 情绪 的 影响 ,或 者 在 实验 课程 中 受到 学 习 等 正面 情绪 的 影响 。 

测试 。 如 果 重 复 测 试 ， 主 体会 在 不 同 的 时 间 给 出 不 同 的 响应 ， 因 为 他 们 已 经 知道 
测试 是 如 何 进 行 的 。 如 果 有 必要 熟悉 测试 ， 就 不 要 将 测试 结果 反馈 给 主体 ， 这 一 点 很 
重要 ， 以 免 给 主体 不 期 望 的 学 习 。 

工具 。 这 是 因 实验 中 要 用 到 的 制品 而 引发 的 ， 如 数据 收集 表 、 在 审查 类 实验 中 的 
待 检 文 档 等 。 如 果 拙 劣 地 设计 这 些 工 具 ， 实 验 就 会 受到 负面 影响 。 

统计 回归 效应 。 当 主体 按照 以 前 的 实验 或 者 案例 研究 进行 分 组 ， 例 如 前 十 位 、 后 
十 位 ， 则 可 能 产生 这 种 威胁 。 这 种 情况 下 ， 即 使 根本 不 用 处 置 ， 也 应 该 进行 一 些 增加 
或 者 改进 。 例 如 ， 由 于 纯粹 随机 变化 的 原因 ， 以 前 实验 的 后 十 位 在 新 的 实验 中 未 必 全 
在 后 十 位 ， 这 样 选择 的 后 十 位 可 能 不 比 剩 下 的 后 十 位 更 糟糕 。 所 以 最 好 做 一 些 改变 ， 
从 相对 更 大 的 群体 中 选择 。 

里 选 。 这 是 由 于 人 的 行为 会 自然 变化 而 产生 的 影响 ， 从 利益 群体 中 选择 主体 的 方 
法 不 同 ， 选 择 的 效果 也 是 不 同 的 。 此 外 ， 让 志愿 者 参与 实验 可 能 会 影响 实验 结果 。 相 
对 于 整个 群体 ， 志 愿 者 会 更 加 主动 并 更 适合 新 任务 。 因 此 ， 这 样 选择 的 主体 不 能 代表 
期 望 的 利益 总 体 的 情况 。 

死亡 率 。 这 种 效应 是 由 实验 中 各 种 人 员 的 退出 而 引起 的 。 刻 画 退 出 人 员 的 特征 ， 
以 检查 是 否 依然 可 以 代表 总 体 样本 。 如 果 某 个 特殊 类 别 的 主体 退出 ， 例 如 审查 相关 实 
验 中 所 有 的 高 级 评审 者 退出 ， 实 验 的 有 效 性 就 会 受到 严重 影响 。 

因果 方向 的 歧义 性 。 这 里 的 问题 是 ， 究 竟 是 A 导致 B ， 还 是 B SRA, HEX | 
致 了 A ALB? 例如 ， 如 果 程 序 复杂 性 和 错误 率 之 间 有 相关 性 ， 那 么 究竟 是 程序 复杂 性 
高 引起 了 高 的 错误 率 ， 还 是 相反 ? 或 者 是 由 于 问题 复杂 性 高 导致 了 两 者 。 

大 多 数 对 内 部 有 效 性 的 威胁 都 可 以 通过 实验 设计 解决 。 例 如 ， 引 入 一 个 控制 组 可 
以 解决 许多 内 部 威胁 ， 但 同时 又 引入 了 多 组 威胁 。 

多 组 威胁 (Multiple group threat) 。 在 一 个 多 组 实验 中 ， 要 研究 多 个 不 同 的 组 。 对 
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这 种 研究 的 威胁 是 ， 控 制 组 和 选择 的 实验 组 可 能 会 受到 上 述 各 种 威胁 的 不 同 影响 ， 出 
现 甄选 时 的 相互 干扰 。 

甄选 互 和 干扰。 甄选 时 的 相互 干扰 源 自在 不 同 组 中 不 同 的 行为 表现 。 例 如 村 选 成 熟 
性 干扰 ， 意 味 着 不 同 的 组 以 不 同 的 速度 成 熟 ， 璧 如 两 个 组 各 自 采 用 一 种 新 方法 ， 由 于 
学 习 能 力 不 同 ， 一 个 组 的 学 习 速 度 比 另 外 一 个 快 ， 因 此 两 个 组 的 成 熟 性 就 不 同 。 甄 选 
历史 表示 不 同 组 受 历史 的 影响 不 同 ， 以 此 类 推 。 

社会 性 对 内 部 有 效 性 的 威胁 (Social threats to internal validity) 。 这 些 威胁 在 单 组 和 
多 组 实验 都 可 能 存在 。 下 面 给 出 的 例子 是 一 个 审查 实验 ， 使 用 一 个 新 的 审查 方法 ( 基 
于 视角 的 阅读 ，PBR) 和 老 方法 〈 基 于 检查 单 的 阅读 ，CBR) 进行 比较 。 

处 置 传播 与 模仿 。 这 种 情况 出 现在 控制 组 学 习 某 组 的 处 置 ， 或 者 试图 模仿 这 个 组 
的 行为 。 例 如 控制 组 使 用 CBR 方法 ， 实 验 组 使 用 PBR 方法 ， 前 者 可 能 了 解 一 些 PBR 
方法 ， 并 且 在 进行 审查 时 受到 其 视角 的 影响 。 对 后 者 而 言 ， 如 果 评 审 人 是 某 领域 的 专 
家 ， 也 会 出 现 传 播 和 模仿 的 威胁 。 

处 置 补偿 均等 。 如 果 控 制 组 没有 处 置 ， 代 之 以 获得 某 种 补偿 而 作为 控制 组 ， 这 种 
情形 会 影响 到 实验 的 结果 。 例 如 教 给 控制 组 BPR 之 外 的 另外 一 种 新 方法 作为 补偿 ， 他 
们 的 行为 就 会 受到 这 种 方法 的 影响 。 

补偿 对 抗 。 当 主体 可 使 用 的 处 置 少 于 期 望 时 ， 这 种 天 然 的 劣势 可 能 激发 主体 的 主 
观 能 动 性 ， 导 致 削弱 甚至 逆转 期 望 的 结果 。 例 如 使 用 传统 方法 的 组 可 能 尽 最 大 努力 表 
明 老 方法 是 有 竞争 力 的 。 

怨恨 和 急 工 。 这 里 和 前 一 个 威胁 正好 相反 ， 当 主体 可 使 用 的 处 置 少 于 期 望 时 ， 他 们 
可 能 放弃 而 做 不 出 正常 应 该 有 的 效果 。 例 如 使 用 传统 方法 的 组 自暴自弃 、 消 极 傅 工 ， 
而 学 习 新 东西 的 组 会 激励 他 们 使 用 新 方法 。 


8.8.3 结构 有 效 性 


结构 有 效 性 关注 实验 结果 对 于 实验 背后 的 概念 或 理论 的 普 适 性 。 对 结构 有 效 性 的 
威胁 一 部 分 与 实验 的 设计 有 关 ， 其 他 是 社会 化 的 因素 。 

设计 威胁 (Design threat)。 设 计 对 结构 有 效 性 的 威胁 ,涉及 与 设计 有 关 的 问题 以 
及 其 反映 研究 结构 的 能 力 。 

构造 前 解释 不 充分 。 尽 管 标题 元 长 ， 但 这 个 威胁 实际 上 非常 简单 ， 意 指 在 将 结构 
转化 成 度量 和 处 置 前 没有 充分 定义 。 理 论 不 够 清晰 ， 于 是 实验 也 无 法 非常 清楚 。 例 如 
比较 两 个 审查 方法 时 ， 没 有 清楚 地 说 明 什 么 表示 “更 好 ”， 是 发 现 缺 陷 总 数 最 多 ? 每 
小 时 发 现 缺 陷 最 多 ? 还 是 发 现 最 严重 的 缺陷 ? 

单一 操作 偏 傈 。 如 果实 验 只 有 单一 的 独立 变量 、 案 例 、 主 体 或 者 处 置 ， 这 个 实验 
就 可 能 只 低 度 代表 期 望 的 结构 而 无 法 给 出 理论 的 全 貌 。 例 如 一 个 审查 实验 只 用 单一 文 
档 作为 实验 对 象 ， 其 原因 结构 的 代表 性 就 不 够 。 

单一 方法 偏 丛 。 使 用 单一 的 度量 或 观察 类 型 带 来 的 风险 是 ， 如 果 这 个 度量 或 观察 





给 出 的 结果 有 偏 倚 ， 就 会 误导 实验 结果 。 纳 入 多 种 不 同 的 度量 和 观察 类 型 ， 可 以 彼此 
进行 交叉 检验 。 例 如 在 审查 实验 中 ， 如 果 只 度量 发 现 的 缺陷 数目 ， 而 缺陷 的 分 类 却 依 
赖 于 主观 判断 ， 那 么 发 现 的 关系 就 不 能 充分 地 解释 ， 这 个 实验 可 能 就 偏 倚 了 该 度量 。 

结构 和 结构 水 平 混淆 。 如 果 一 个 关系 中 并 不 主要 出 现 某 个 结构 ， 但 这 个 结构 的 水 
平 却 对 该 结果 有 重要 影响 ， 就 意味 着 该 结构 出 现 的 效果 和 结构 水 平 的 效果 出 现 混淆 。 
例如 ， 以 前 是 否 有 程序 设计 语言 方面 的 知识 不 能 解释 为 实验 的 原因 ， 但 主体 具有 1、3 
或 者 5 年 当前 语言 的 经 验 却 可 能 是 实验 结果 出 现 差异 的 原因 。 

不 同 处 置 互 扰 。 如 果 主 体 涉及 多 组 研究 ， 那 么 不 同 研究 中 的 处 置 会 相互 干扰 ， 进 
而 无 法 推断 一 个 效果 来 自 某 个 处 置 ， 抑 或 一 个 处 置 的 集合 。 

测试 与 处 置 互 扰 。 测 试 本 身 也 是 处 置 的 一 次 应 用 ， 可 能 会 让 主体 对 这 个 处 置 更 加 
敏感 或 者 更 乐于 接受 。 于 是 ， 测 试 就 成 为 处 置 的 一 部 分 。 例 如 测试 中 涉及 度量 编码 中 
错误 的 数目 ， 那 么 主体 就 会 更 容易 意识 到 自己 的 错误 ， 并 尽量 减少 。 

结构 间 受 限 通用 性 。 一 个 处 置 可 能 正面 地 影响 所 研究 的 结构 ， 但 无 意 中 ， 也 可 能 
负面 地 影响 其 他 结构 。 这 个 威胁 使 结果 难以 推广 到 其 他 潜在 的 成 果 中 。 例 如 ， 一 个 比 
较 研究 推断 采用 新 方法 可 以 提高 生产 率 ， 但 另 一 方面 可 能 观察 到 降低 了 可 维护 性 ， 导 
致意 料 之 外 的 副作用 。 如 果 没 有 度量 或 观察 可 维护 性 ， 就 存在 一 个 风险 ， 即 结论 只 基 
于 生产 率 属性 ， 而 忽略 了 可 维护 性 。 

社会 性 对 结构 有 效 性 的 威胁 。 这 些 威胁 关注 与 主体 和 实验 员 行为 相关 的 问题 。 作 
为 实验 的 一 部 分 ， 他 们 可 能 发 生 与 在 其 他 地 方 不 一 样 的 行为 ， 从 而 导致 一 个 错误 的 
结果 。 

假设 猜测 。 人 们 参加 实验 时 ， 通 常会 被 告知 实验 的 目标 和 预期 的 结果 。 这 样 他 们 
可 能 会 猜测 假设 ， 并 基于 对 预期 假设 正面 或 负面 的 态度 设立 其 行为 的 基调 。 

评价 恐惧 症 。 一 些 人 害怕 被 评价 。 人 类 的 一 种 倾向 是 ， 在 被 评价 时 总 试图 得 到 较 
好 的 结果 ， 这 会 困扰 对 实验 成 果 的 评价 。 例 如 ， 比 较 不 同 估算 模型 时 ， 人 们 可 能 不 报 
告 估算 与 结果 的 真实 偏差 ， 而 是 报告 虚假 但 “好 看 ”的 值 。 

实验 者 预期 。 基 于 对 结果 的 预期 ， 实 验 会 有 意 或 无 意 地 有 所 偏 倚 。 这 种 威胁 可 以 
通过 纳入 不 同期 望 的 人 员 来 缓解 。 例 如 ,为 了 获得 期 望 的 答案 ， 可 以 用 不 同 的 方式 
提问 。 


8.8.4 外 部 有 效 性 


对 外 部 有 效 性 的 威胁 是 一 些 影响 实验 结果 推广 到 产业 实践 的 限制 条 件 。 包 括 处 置 
与 人 、 地 点 、 时 间 之 间 相 互 干 扰 的 三 种 类 型 。 

选择 与 处 置 互 扰 。 这 种 情况 指 选择 主体 的 群体 不 是 我 们 期 望 要 推广 的 群体 ， 也 就 
是 说 错误 地 选择 了 参与 实验 的 人 员 。 例 如 ， 对 于 程序 员 、 测 试 人 员 以 及 系统 工程 师 都 
会 参与 的 审查 ， 却 只 选择 程序 员 参 加 实验 。 

设置 与 处 置 互 扰 。 这 种 情况 指 实验 设置 和 材料 不 具有 代表 性 ， 如 不 代表 工业 实践 。 
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例如 ， 当 现代 工具 已 经 在 业界 普遍 使 用 时 ， 实 验 中 却 使 用 一 种 老 旧 的 工具 。 另 外 一 个 
例子 是 在 “过 家 家 ”的 问题 上 做 实验 。 这 意味 着 错误 的 场地 或 者 环境 。 

历史 与 处 置 互 扰 。 这 种 情况 指 在 某 个 特殊 的 、 可 能 会 影响 结果 的 时 间或 日 期 进行 
实验 。 例 如 ， 如 果 在 一 个 与 软件 相关 的 大 崩盘 后 马上 进行 安全 关键 系统 的 调查 问卷 ， 
较 之 于 之 前 几 天 或 者 之 后 数 周 甚至 数 月 ， 人 们 往往 会 给 出 不 同 的 答案 。 

可 以 通过 让 实验 环境 尽 可 能 接近 现实 情况 来 减少 对 外 部 有 效 性 的 威胁 。 但 另 一 方 
面 ， 现 实 也 不 是 同 质 的 。 重 要 的 是 要 刻画 环境 的 特征 ， 并 报告 所 刻画 的 环境 ， 璧 如 职 

[110] 员 的 经 验 、 工 具 、 方 法 等 ， 以 评价 其 在 特定 情境 中 的 适用 性 。 


8.9 ”有 效 性 威胁 类 型 的 优先 级 


前 面 讨 论 了 内 部 有 效 性 、 外 部 有 效 性 、 结 论 有 效 性 和 结构 有 效 性 四 种 类 型 。 一 些 
对 有 效 性 的 威胁 彼此 间 会 有 冲突 ， 某 种 类 型 的 威胁 上 升 了 ， 另 外 一 种 就 可 能 下 降 。 因 
此 ， 有 效 性 类 型 的 优先 级 排序 问题 实际 上 是 在 给 定 实验 目标 下 的 优化 问题 。 

例如 ， 在 审查 实验 中 用 大 学 生 ， 可 以 有 机 会 获得 较 大 的 实验 组 ， 降 低 组 之 间 的 异 
构 性 ， 并 实现 可 靠 的 处 置 。 这 样 会 有 和 较 高 的 结论 有 效 性 ,但 同时 会 降低 外 部 有 效 性 ， 
因为 如 果 我 们 希望 结果 可 以 推广 到 产业 界 ， 主 体 的 选择 就 不 具有 代表 性 。 

另外 一 个 例子 是 让 主体 通过 填写 设计 好 的 图 表 来 度量 某 些 因子 ， 以 便 确 保 处 置 及 
其 结果 确实 代表 了 所 研究 的 结构 。 这 样 会 提高 结构 的 有 效 性 ， 但 却 有 可 能 降低 结论 的 
有 效 性 。 这 是 因为 元 长 的 度量 存在 降低 度量 可 靠 性 的 倾向 。 

不 同 实 验 中 ， 各 类 有 效 性 的 优先 级 也 可 能 不 一 样 ， 这 取决 于 实验 的 目的 。Cook 和 
Campbell [37] 针对 理论 检验 和 应 用 型 研究 给 出 如 下 建议 。 

理论 检验 (Theory testing)。 在 理论 检验 中 ， 最 重要 的 是 检验 是 否 存在 某 种 因果 关 
系 〈 内 部 有 效 性 ) ， 实 验 的 变量 代表 理论 的 结构 〈 结 构 有 效 性 ) ， 增 加 实验 规模 通常 可 
以 解决 统计 显著 性 的 问题 〈 结 论 有 效 性 ) 。 理 论 很 少 与 特定 的 设置 、 实 验 群 体 或 者 实 
验 结果 产生 的 时 间 有 关联 ， 所 以 几乎 没有 外 部 有 效 性 的 问题 。 因 此 ， 理 论 检验 实验 有 
效 性 的 优先 级 降序 排列 为 内 部 、 结 构 、 结 论 和 外 部 。 

应 用 研究 (Applied research)。 应 用 研究 是 大 多 数 软件 工程 实验 的 研究 目标 ， 其 考 
虑 有 效 性 的 优先 级 也 有 所 不 同 。 同 样 ， 研 究 的 关系 (AWARE) 依然 是 第 一 位 的 ， 
因为 实验 的 主要 目标 是 研究 原因 和 结果 之 间 的 关系 。 在 应 用 研究 中 ， 通 用 性 一 一 亦 即 
从 实验 情境 扩展 到 更 加 广泛 的 情境 (外 部 有 效 性 )， 也 具有 和 较 高 的 优先 级 。 对 研究 者 
而 言 ， 其 兴趣 不 只 在 于 看 到 实验 结果 在 公司 X 有 效 ， 而 是 希望 看 到 在 特定 规模 或 者 领 
域 的 公司 都 有 效 。 第 三 ， 相 对 而 言 ， 研 究 者 对 复杂 处 置 中 究竟 哪个 组 件 真正 导致 了 结 
果 (结构 有 效 性 ) 并 不 是 很 关心 。 例 如 在 阅读 实验 中 ， 不 那么 关心 是 由 于 评审 人 员 提 
高 了 理解 能 力 ， 还 是 具体 的 阅读 程序 帮助 读者 发 现 了 更 多 的 缺陷 ， 其 主要 的 兴趣 在 于 
效果 本 身 。 最 后 ， 在 实际 的 实验 设置 中 ， 很 难得 到 充分 的 数据 集 ， 因 此 得 出 统计 结论 

Lu] 的 置信 水 平 可 能 较 低 (结论 有 效 性 )。 所 以 ， 应 用 研究 实验 有 效 性 的 优先 级 降序 排列 








为 内 部 、 外 部 、 结 构 、 结 论 。 

总 而 言 之 ， 在 实验 的 计划 阶段 ， 应 该 认真 地 评估 和 平衡 对 结果 有 效 性 的 威胁 。 实 
验 目的 不 同 ， 评 估 有 效 性 的 优先 级 也 不 同 。 实 验 威胁 对 实验 结果 的 实际 意义 影响 重大 ， 
例如 ,统计 上 可 能 表明 有 意义 ,但 实际 上 却 是 没有 意义 。 这 个 问题 将 在 10. 3. 14 节 仔 
细 讨 论 。 


8.10 ”实验 举例 


本 节 将 继续 7. 2 节 介 绍 的 例子 ， 计 划 阶 段 的 输入 是 目标 定义 。 与 计划 相关 的 某 些 
随 目标 定义 已 部 分 解决 的 问题 在 例子 中 已 经 阐述 ， 学 生 将 作为 实验 主体 ， 且 实验 会 包 
含 多 个 需求 文档 。 计 划 是 实验 的 关键 活动 ， 计 划 时 的 失误 会 影响 实验 的 整体 效果 。 计 
划 包 含 7 个 活动 ， 见 图 8-1。 

情境 选择 。 在 许多 案例 中 ， 人 情境 类 型 至 少 部 分 取决 于 目标 定义 的 方法 。 本 例子 隐 
含 的 实际 情境 应 该 是 离线 的 ， 尽 管 有 部 分 学 生 项 目 在 线 运 行 ， 但 不 能 算 作 工业 开发 项 
目的 一 部 分 。 实 验 由 硕士 和 博士 研究 生 混合 进行 。 

一 个 由 学 生 进 行 的 离线 实验 ， 意 味 着 可 能 很 难 有 时 间 去 审查 一 个 正式 的 真实 系统 
的 需求 文档 。 大 多 数 情况 下 ， 这 类 实验 不 得 不 凭借 特征 有 限 的 需求 文档 。 在 这 个 例子 
中 ， 使 用 了 两 个 来 自 实验 包 的 需求 文档 〈 实 验 包 包 含 一 组 可 以 重复 使 用 的 资料 ， 并 且 
可 在 线 获得 ) 。 我 们 可 以 回忆 一 下 ， 使 用 两 个 需求 文档 也 影响 设计 类 型 的 选择 。 由 于 需 
求 文档 在 特征 上 有 一 些 限制 ， 所 以 它们 可 能 在 一 定 程度 上 被 视 为 “玩具 ”需求 文档 。 

如 果实 验 的 目标 是 单纯 地 〈 从 研究 者 的 视角 ) 比较 两 种 阅读 技术 ， 而 不 是 比较 公 
司 内 已 经 使 用 的 阅读 技术 和 新 的 备 选 技术 ， 那 么 这 个 实验 一 般 可 以 认为 是 有 意义 。 对 
后 者 而 言 ， 应 该 让 实验 环境 更 接近 公司 的 具体 情况 。 但 两 者 都 必须 确保 公平 比较 。 

在 一 般 的 研究 案例 中 ， 公 平 比 较 才 能 支持 被 调查 的 两 种 技术 是 可 比较 的 ， 这 一 点 
非常 重要 。 辟 如 很 容易 出 现 的 情况 是 ， 在 CBR 方法 中 用 了 一 个 很 糟糕 的 检查 单 ， 但 另 
一 方面 给 PBR 方法 提供 很 好 的 支持 。 这 样 会 偏 祖 PBR， 导 致 实验 结果 受到 质疑 。 这 也 
是 为 什么 “不 支持 ”不 是 一 个 好 的 控制 。 一 个 实验 的 比较 /评价 必须 在 两 个 方法 可 比 
较 且 均 获得 相似 支持 的 基础 上 进行 。 要 避免 对 控制 组 不 支持 的 情况 发 生 。 这 种 情况 只 
有 在 获得 支持 的 组 比 未 获 支 持 的 组 ， 如 使 用 公司 的 老 方法 的 效果 还 差 时 才 有 意义 。 然 
而 ， 这 种 情况 很 少见 ， 在 这 种 环境 下 开展 实验 也 几乎 没有 价值 。 

在 这 个 具体 的 案例 中 ， 对 双方 支持 的 公平 性 是 没有 问题 的 ， 因 为 只 要 是 将 一 个 已 
经 存在 的 技术 和 一 个 备 选 的 技术 对 比 ， 那 么 对 两 个 技术 的 支持 应 该 是 公平 的 。 这 个 案 
例 的 主要 挑战 在 于 ， 主 体 对 已 有 技术 是 熟知 的 ， 而 新 技术 是 必须 要 教 给 他 们 的 。 所 以 
对 新 技术 的 生 下 是 它 的 弱势 。 但 另 一 方面 ， 主 体 对 新 技术 的 兴趣 又 可 能 成 为 潜在 的 优 
势 ， 因 为 他 们 可 以 学 到 新 技术 。 因 此 在 这 种 情况 下 ， 优 劣 并 不 是 很 明显 ,但 是 否 存 在 
对 某 个 方法 的 偏爱 却 是 研究 人 员 必 须要 考虑 的 。 

假设 构建 。 目 标定 义 时 已 经 表达 了 实验 希望 用 两 种 技术 进行 审查 ， 并 比较 它们 发 
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现 故 障 的 效率 和 效果 。 第 一 种 方法 是 基于 视角 的 阅读 (PBR) 审查 ， 第 二 种 方法 是 基 
于 检查 单 的 阅读 (CBR) WA., PBR 基于 评审 人 员 在 审查 时 不 同 的 视角 ，CBR 基于 一 
个 检查 单 ， 其 中 列 出 了 可 能 与 需求 文档 缺 隐 有 关 的 各 种 条 目 。 

实验 中 使 用 的 需求 文档 在 之 前 的 实验 中 已 经 用 过 ， 这 意味 着 需求 文档 中 的 缺陷 数 
目 是 已 知 的 ， 尽管 不 能 否认 会 发 现 新 的 缺陷 。 还 应 该 注意 到 ， 效 果 指 发 现 的 缺陷 在 总 
缺陷 中 的 占 比 ， 而 效率 还 包括 时 间 ， 亦 即 是 否 在 单位 时 间 内 发 现 更 多 的 缺陷 。 为 了 正 
式 地 构建 假设 ， 设 N 为 缺陷 数 ，N 为 每 个 时 间 单 元 发 现 的 缺陷 数 。 

如 下 : 

© Noon A Micon JP HAAN PBR 和 CBR 发 现 的 缺陷 数 。 

© 人 vi 和 人 wm， 分 别 表示 PBR 和 CBR 在 每 个 单位 时 间 发 现 的 缺陷 数 。 

假设 可 以 描述 为 : 

效果 : 

Ho: Hipp =HNcon 

Hi: MWg () Nop 

应 该 注意 到 ， 备 择 假设 是 两 个 阅读 技术 存在 差异 。 换 句 话说 ， 备 择 假设 被 描述 为 
一 个 双 面 假设 ， 而 不 是 假定 一 个 会 好 于 另外 一 个 。 

效率 : 

Hy: KNipsr = KNicer 

Hy: KNiper () ENtepr 

这 个 假设 意味 着 我 们 希望 在 统计 意义 上 看 到 两 个 阅读 技术 发 现 的 缺陷 数 不 同 ， 并 
且 在 单位 时 间 内 发 现 的 缺陷 数 也 不 同 ， 我 们 希望 否定 原 假设 。 必 须 指出 的 是 ， 不 能 否 
定 原 假设 并 不 意味 着 接受 原 假设 ， 它 可 能 是 由 于 主体 太 少 而 导致 ， 而 不 是 两 个 技术 真 
的 在 发 现 缺 陷 的 反应 上 一 样 。 

变量 选择 。 这 个 实验 的 独立 变量 是 阅读 技术 ， 有 两 个 水 平 ， 分 别 是 PBR 和 CBR, 
非 独 立 变 量 是 发 现 的 缺陷 数 和 单位 时 间 发 现 的 缺陷 数 。 因 此 要 保证 主体 可 以 清楚 地 标 
记 发 现 的 缺陷 ， 研 究 者 随后 比较 实验 标记 的 缺陷 和 已 知 的 缺陷 集合 。 进 一 步 还 要 确保 
主体 记录 时 间 ， 并 填写 发 现 缺 陷 的 时 间 。 必 须 注意 的 是 ， 跟 踪 记 录 每 个 缺陷 发 现 的 时 
间 非 常 重要 ， 因 为 有 的 缺陷 可 能 是 误 报 的 ， 所 以 这 部 分 数据 必须 从 相关 的 时 间 区 间 中 
去 除 。 

主体 甄选 。 最 好 的 情况 是 有 可 能 为 实验 随机 地 选择 主体 。 然 而 ， 大 多 数 实验 的 研 
究 者 往往 被 迫 只 能 使 用 可 用 的 主体 ， 所 以 在 大 学 进行 的 实验 中 ， 往 往 是 选修 某 门 课程 
的 学 生成 为 主体 ， 本 案例 也 是 这 样 。 在 这 种 情况 下 ， 重 要 的 是 允许 主体 有 拒绝 参加 的 
自由 ， 而 且 不 会 受到 任何 惩罚 。 如 果 参 与 实验 有 学 分 ， 则 应 该 提供 其 他 可 以 不 参加 的 
备 选 方案 。 

如 果实 验 的 目的 是 比较 两 组 学 生 使 用 不 同 技术 的 效果 ， 那 么 应 该 通过 主体 的 选择 ， 
亦 即 学 生 组 的 刻画 来 控制 实验 处 置 。 事 实 上， 这 可 以 看 作 一 个 准 实验 。 独 立地 刻画 所 


HSE tt 4] 87 





选择 的 主体 非常 重要 ， 可 以 帮助 我 们 评价 研究 的 外 部 有 效 性 。 

设计 类 型 选择 。 一 旦 知道 了 哪些 人 员 将 参与 实验 ， 下 一 步 就 是 随机 化 主体 选择 并 
确定 如 何 分 组 。 好 的 方法 通常 先 用 一 个 预备 测试 来 了 解 备 选 主体 的 经 验 并 以 此 将 人 员 
分 组 ， 然 后 随机 地 从 各 组 选择 主体 参加 实验 。 这 是 为 了 确保 每 个 组 尽 可 能 有 同样 的 先 
前 经 验 ， 并 维护 主体 的 随机 性 。 这 也 称 为 分 块 阻 断 ， 亦 即 阻 断 主体 的 先前 经 验 以 努力 
保证 不 影响 实验 的 效果 。 最 后 ， 在 大 多 数 实验 中 ， 各 组 的 大 小 规模 一 致 ， 也 就 是 说 希 
望 达到 均衡 设计 。 设 计 类 型 的 选择 会 受到 可 用 主体 数目 的 影响 。 如 果 可 用 的 主体 数目 
较 多 ， 就 可 以 考虑 多 种 实验 组 合 ， 或 者 每 个 /组 主体 只 用 在 一 个 处 置 中 。 当 可 用 主体 相 
对 较 少 时 ， 如 何 巧妙 地 在 不 妥协 实验 目标 的 前 提 下 地 使 用 主体 是 很 有 挑战 性 的 。 

下 一 步 是 决定 设计 类 型 。 这 个 实验 包含 一 个 主要 影响 因子 〈 阅 读 技术 ) 和 两 个 处 
E (PBR 和 CBR)。 第 二 个 影响 因子 是 需求 文档 ,但 不 是 实验 真正 关心 的 因素 。 基 于 
前 面 的 决策 ， 自 然 地 ， 设 计 类 型 是 完全 随机 设计 ， 每 个 组 先 使 用 PBR 或 者 CBR 阅读 第 
一 个 需求 文档 ， 然 后 用 男 一 种 技术 阅读 为 一 个 需求 文档 。 决 定 实 验 顺序 时 有 两 个 选择 : 
QD 两 个 组 先 各 用 不 同 的 阅读 技术 审查 同一 个 需求 文档 ， 然 后 交换 阅读 技术 审查 男 外 一 
个 需求 文档 ; 或 者 己 两 个 组 先 用 同样 的 阅读 技术 审查 不 同 的 需求 文档 ， 然 后 交换 文档 ， 
并 用 另外 一 种 技术 。 哪 个 方式 都 有 顺序 问题 。 第 一 种 方式 中 一 种 需求 文档 会 先 于 另 一 
种 被 使 用 ， 而 在 第 二 种 方式 中 一 种 阅读 技术 会 先 于 另 一 种 被 使 用 。 因 此 ， 必 须 考 虑 哪 
一 种 对 实验 的 威胁 最 小 。 有 效 性 威胁 将 在 下 面 进 一 步 讨论 。 

另外 一 种 设计 选择 是 允许 一 组 用 PBR 审查 需求 文档 ， 而 男 一 组 用 CBR 审查 同样 的 
文档 。 其 优点 是 在 同样 的 时 间 范 围 内 可 以 使 用 较 大 的 需求 文档 ， 缺 点 是 只 产生 了 一 半 
的 数据 。 一 个 实验 常常 只 有 有 限 确定 的 时 间 ， 因 此 ， 如 何 最 有 效 地 利用 这 个 时 间 、 最 
大 可 能 地 获得 好 的 实验 结果 来 处 理 假设 变 得 非常 重要 。 设 计 选 择 非常 重要 而 且 总 是 需 
要 权衡 取舍 ， 不 同 的 设计 类 型 有 不 同 的 优 缺 点 。 此 外 ， 设 计 选 择 也 是 统计 方法 应 用 的 
基础 ， 将 在 10. 4 节 进 一 步 讨 论 。 

在 这 个 具体 的 案例 中 选择 了 完全 随机 设计 。 一 个 组 先 使 用 PBR 审查 第 一 个 需求 文 
档 ， 同 时 另 一 个 组 使 用 CBR 审查 同一 个 需求 文档 。 选 择 这 个 方案 的 原因 是 ， 研 究 者 相 
信和 阅读 技术 的 顺序 会 比 文档 顺序 的 影响 大 ， 特 别 是 这 个 实验 的 主要 关注 点 是 阅读 技术 
之 间 的 差异 ， 而 不 是 需求 文档 之 间 的 差异 。 

实验 工具 。 本 实验 基于 一 个 实验 包 ， 需 求 文档 是 现成 的 ， 还 有 已 知 缺 陷 〈 到 目前 
为 止 ) 的 清单 。 在 确定 实验 将 使 用 的 需求 文档 时 ， 最 好 已 知 其 缺陷 ， 以 便于 确定 阅读 
技术 的 审查 效果 。 

必须 开发 或 者 重用 使 用 这 两 种 技术 的 指南 。 特 别 重要 的 是 要 保证 对 比 的 公平 性 ， 
如 前 面 提 到 的 ， 必 须 保 证 对 两 种 技术 的 支持 是 可 比 的 。 

记录 缺陷 的 表格 也 必须 事先 开发 出 来 或 者 重用 其 他 实验 的 ， 这 里 的 关键 是 要 保证 
需求 文档 和 表格 之 间 的 可 跟踪 性 ， 例 如 在 需求 文档 标号 发 现 的 缺陷 ， 在 表格 上 要 能 获 
得 该 标号 缺陷 的 相关 信息 。 
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有 效 性 评价 。 最 后 ， 必 须 评价 对 有 效 性 的 威胁 。 提 前 考虑 和 排除 风险 非常 重要 ， 
这 样 才能 保证 把 威胁 降低 到 最 小 程度 。 要 避免 所 有 的 威胁 几乎 不 可 能 ， 话 虽 如 此 ， 仍 
然 希 望 在 有 可 能 的 情况 下 识别 所 有 威胁 并 尽 可 能 缓解 。 

对 这 个 例子 中 威胁 的 评价 留 在 练习 中 ， 见 8. 11 节 中 的 练习 8. 5。 

实验 过 程 中 的 下 一 步 。 基 于 上 诉 对 本 例子 各 步骤 的 介绍 ， 和 希望 我 们 已 经 准备 好 ， 
可 以 进行 这 个 实验 了 。 然 而 ， 在 执行 之 前 ， 建 议 找 一 些 同事 评审 一 下 实验 设计 。 进 一 
步 地 ， 如 果 有 可 能 先 做 个 简短 的 试验 则 更 好 ， 尽 管 试验 要 用 到 本 来 可 以 用 作 实 验 主体 
的 一 人 或 多 人 。 也 正 因为 如 此 ， 灵巧 地 使 用 潜在 的 主体 非常 重要 。 


8. 11 练习 


8.1 什么 是 原 假设 ,什么 是 备 择 假设 ? 

8.2 工 类 错误 和 开 类 错误 分 别 是 什么 ? 哪 种 更 糟糕 ? 为 什么 ? 

8.3 主体 抽样 有 哪些 不 同 的 方式 ? 

8.4 有 哪些 不 同类 型 的 实验 设计 ? 实验 设计 与 分 析 时 使 用 的 统计 方法 有 何 关 联 ? 

8.5 在 8.10 节 的 例子 中 存在 哪些 威胁 (考虑 所 有 四 种 有 效 性 威胁 )? 请 解释 它们 为 什 
么 是 威胁 ?如 何在 这 些 不 同 的 有 效 性 类 型 中 平衡 取舍 ? 
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设计 和 计划 好 之 后 ， 就 要 实施 实验 以 获取 数据 进行 分 析 ， 也 就 是 这 里 要 讨论 的 实 
验 操作 。 在 实验 的 操作 阶段 ， 主 体 应 用 处 置 ， 这 也 意味 着 这 个 阶段 是 主体 真正 使 用 处 
置 的 地 方 。 在 大 多 数 软件 工程 实验 中 ， 其 他 阶段 仅 会 在 很 短 的 时 间 里 真正 涉及 主体 ， 
涉及 主体 的 事件 通常 包括 主体 承诺 参加 实验 前 的 说 明 会、 实验 完成 时 的 报告 会 等 。 尽 
管 有 时 会 进行 在 2.4 节 讨 论 的 面向 技术 的 实验 ， 但 大 多 数 情 况 下 ， 软 件 工程 的 实验 都 
是 和 人 打交道 的 。 本 章 在 一 定 程度 上 涉及 一 些 如 何 激励 人 们 参与 实验 的 讨论 。 

即使 实验 的 设计 很 精心 ， 收 集 的 数据 也 以 合适 的 方法 进行 了 分 析 ， 但 如 果 主 体 没 
有 认真 地 对 待 实验 ， 结 果 也 将 是 无 效 的 。 实 验 心理 学 领域 对 涉及 人 的 实验 进行 了 一 些 
研究 [4, 29], 来 自 于 这 个 领域 的 实验 实施 指南 在 一 定 程 度 上 也 适用 于 软件 工程 
领域 。 

实验 操作 阶段 包括 三 个 步骤 : 准备 一 一 选择 主体 并 准备 需要 的 表格 ; 执行 一 一 主 
体 以 不 同 的 处 置 方式 执行 任务 并 收集 数据 ; 数据 确认 一 一 确认 收集 到 的 数据 。 这 三 个 
步骤 如 图 9-1 所 示 ， 并 将 在 本 章 后 续 部 分 进一步 介绍 。 





图 9-1 实验 操作 的 三 个 步骤 


9.1 准备 


实验 真正 开始 前 还 有 一 些 准备 工作 ， 准 备 越 充分 ， 执 行 越 容易 。 准 备 工 作 有 两 个 
重要 的 方面 。 首 先是 选择 和 通知 主体 ; 其 次 是 准备 实验 需要 的 材料 ， 如 表格 TRE, 


9.1.1 参与 者 承诺 


实验 开始 前 ， 要 找到 作为 主体 参与 实验 的 人 员 ， 让 这 些 人 员 有 参与 到 整个 实验 的 
激情 和 愿望 是 至 关 重 要 的 。 

在 许多 情况 下 ， 应 该 寻找 那些 其 日 常 工作 和 实验 要 开展 的 任务 类 似 的 人 员 。 例 如 ， 
如 果 某 个 实验 涉及 用 不 同 的 工具 编写 C 代码 ， 选 择 平常 写 C 代码 而 不 是 Java 代码 的 人 











员 就 更 合理 。 如 果 选 择 的 人 员 不 能 代表 我 们 希望 能 够 展示 结果 的 群体 ， 就 会 威胁 到 实 
验 的 外 部 有 效 性 。 见 第 8 BE, 8.4 节 讨 论 主体 选择 部 分 的 抽样 技术 。 

找到 正确 的 人 员 后 ， 要 说 服 他 们 参加 实验 ， 同 时 要 考虑 这 些 人 作为 实验 主体 是 否 
存在 职业 伦理 方面 的 隐患 。 

获得 同意 (obtain consent) 。 参 与 者 必须 同意 研究 目标 。 如 果 参 与 者 不 了 解 工 作 的 
意图 ， 或 者 与 他 们 认为 其 所 同意 的 工作 相去 甚 远 ， 他 们 就 有 可 能 不 按照 目标 和 应 有 的 
能 力 执行 实验 ， 导 致 数据 无 效 ， 从 而 给 实验 带 来 风险 。 清 楚 地 描述 如 何 使 用 和 公开 实 
验 结果 非常 重要 ， 还 要 让 参与 者 清楚 地 知道 他 们 可 以 自由 地 退出 实验 。 有 的 时 候 ， 必 
须 在 关乎 有 效 性 的 设计 和 这 里 讨论 的 问题 之 间 进 行 折 囊 。 如 果 参 与 者 会 受到 实验 的 影 
响 ， 就 会 影响 到 实验 的 有 效 性 。 

敏感 结果 (Sensitive result) 。 如 果实 验 结果 会 影响 参与 者 ， 也 就 是 说 对 参与 者 敏 
感 ， 则 必须 保证 有 关 他 们 个 人 表现 的 实验 结果 一 定 要 保密 ， 这 一 点 很 重要 。 有 的 时 候 ， 
很 难 判断 结果 是 否 敏 感 ， 但 通常 只 要 结果 在 实验 之 外 可 能 对 参与 者 有 指 征 ， 亦 即 可 能 
对 应 到 某 个 参与 者 ， 则 该 结果 就 可 以 认为 有 一 定 的 敏感 性 。 例 如 ， 如 果实 验 度量 程序 
员 的 生产 率 ， 其 结果 就 可 能 指 征 该 程序 员 的 能 力 ， 那 么 这 个 结果 就 应 该 是 敏感 的 。 反 
之 ， 如 果 要 求 参 与 者 在 验收 测试 中 使 用 某 种 方法 ， 而 他 平时 从 不 会 涉及 这 类 测试 ， 那 
么 这 个 实验 结果 就 可 能 不 是 敏感 的 。 

诱惑 〈Inducement) 。 吸 引 人 们 参与 实验 时 通常 会 提供 某 些 奖励 以 诱导 人 们 积极 参 
加 ， 但 这 种 诱惑 不 能 过 大 ， 那 样 可 能 导致 人 们 仅仅 是 因为 受到 诱惑 而 参与 实验 ， 而 不 
会 认真 地 对 待 实验 。 

披露 (Disclosure) 。 披 露 指 尽 可 能 开放 地 对 实验 主体 展现 实验 的 细节 。 反 之 ， 蒙 
蔽 或 出 卖 参 与 者 通常 是 不 可 接受 的 。 这 种 情况 下 ， 如 果 有 备 选 方案 ， 应 该 使 用 备 选 的 
方法 ; 如 果 不 能 披露 是 唯一 的 方案 ， 则 只 能 用 于 所 隐藏 的 方面 对 参与 者 无 关 紧要 的 情 
况 下 ， 并 且 不 会 影响 参与 者 参加 实验 的 意愿 。 对 于 部 分 披露 的 情况 ， 要 尽 可 能 早 地 向 
参与 者 解释 清楚 。 

更 多 关于 实验 伦理 方面 的 讨论 见 2. 11 节 。 


9. 1.2 准备 实验 工具 


执行 实验 前 ， 所 有 需要 的 实验 工具 都 要 就 绪 ， 见 8.6 节 。 包 括 实验 对 象 、 实 验 指 
南 、 度 量 工具 和 表格 等 。 需 要 的 工具 是 由 实验 设计 以 及 数据 收集 方法 决定 的 。 

如 果 主 体 自己 要 采集 数据 ， 在 大 多 数 情 况 下 意味 着 必须 给 他 们 提供 一 些 表格 。 在 
构造 表格 时 应 确定 参与 者 具名 还 是 匿名 填写 表格 。 如 果 没 有 另外 的 研究 需求 ， 并 且 没 
有 区 分 参与 者 的 实际 意义 ， 使 用 匿名 表格 可 能 更 加 合适 。 不 过 这 也 意味 着 ， 如 果 某 些 
内 容 填 写 得 不 清楚 ， 也 无 法 联系 到 参与 者 。 

在 许多 情况 下 ， 设 计 都 会 考虑 随机 和 重复 检验 ， 不同 的 参与 者 会 作为 不 同 处 置 的 
主体 ， 所 以 应 该 为 每 个 参与 者 准备 一 套 个 性 化 的 工具 集 。 当 参与 者 匿名 时 也 可 以 这 
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样 做 。 
如 果 用 访谈 方式 采集 数据 ， 在 实验 前 要 准备 提问 单 。 同 样 ， 也 应 该 为 不 同 的 参与 
者 准备 不 同 的 提问 单 。 


9.2 执行 


实验 可 以 以 许多 不 同 的 方式 执行 。 某 些 实验 ， 诸 如 简单 审查 实验 可 以 将 所 有 参与 
者 集中 在 一 个 场合 进行 ， 如 会 议 。 其 优点 是 数据 采集 的 结果 可 以 直接 在 会 议 上 获得 ， 
而 不 再 需要 随后 联系 参与 者 分 别 征询 结果 。 另 一 个 优点 是 实验 人 员 也 在 会 场 ， 如 果 有 
问题 可 以 直接 解决 。 

然而 ， 有 些 实验 是 在 一 个 相当 长 的 时 间 跨 度 内 执行 的 ， 实 验 人 员 不 可 能 参与 到 实 
验 和 数据 采集 的 每 一 个 细节 ， 例 如 实验 关联 到 一 个 或 者 多 个 大 项 目 ， 和 希望 评价 这 些 项 
目 使 用 的 不 同 的 开发 方法 。Ohlsson 和 Wohlin[ 128] 给 出 过 这 样 的 一 个 案例 。 在 一 个 历 
时 两 年 有 关 大 规模 软件 开发 的 课程 中 ， 每 一 年 大 约 120 名 学 生 并 行 运行 7 个 项 目 ， 
Ohlsson 和 Wohlin 实验 [128] 的 目标 是 评价 收集 工作 量 数据 时 ， 各 种 技术 所 采用 的 形 
式 化 方法 的 程度 。 


9.2.1 数据 收集 


数据 可 以 通过 多 种 方式 收集 ， 璧 如 参与 者 手工 填写 表格 、 工 具 支 持 下 的 手工 收集 、 
访谈 或 者 工具 自动 收集 。 

使 用 表格 的 优点 是 无 需 实 验 人 员 太 多 的 工作 量 ， 因 为 实验 人 员 不 必 完 全 参与 收集 
活动 。 其 缺点 是 实验 人 员 不 能 直接 发 现 表格 中 可 能 存在 的 不 一 致 、 不 确定 、 下 漏 等 缺 
陷 。 这 类 缺陷 在 参与 者 发 现 或 提出 疑问 甚至 在 完成 数据 收集 之 前 都 不 易 发 现 。 访 谈 的 
优点 是 实验 人 员 有 可 能 和 参与 者 进行 良好 的 沟通 ， 缺 点 当然 是 需要 实验 人 员 更 多 的 工 
作 量 。 


9.2.2 实验 环境 


如 果实 验 是 在 一 个 常规 开发 项 目 中 进行 ， 则 需要 避免 对 项 目 不 必 要 的 影响 。 这 是 
因为 在 项 目 中 进行 实验 的 目的 是 观察 在 项 目 环境 下 不 同 处 置 的 效果 ， 如 果 因 为 实验 而 
导致 项 目 环境 有 过 大 变化 ， 则 会 影响 真实 的 效果 。 

不 过 在 某 些 情况 下 ， 实 验 和 项 目 有 一 定 的 交互 也 是 有 益 的 。 例 如 实验 发 现 项 目的 
某 些 部 分 可 以 执行 得 更 好 或 者 估算 不 正确 ， 把 实验 发 现 告诉 项 目 领 导 应 该 是 合适 的 。 
这 些 来 自 于 实验 的 直接 反馈 有 助 于 激励 项 目 人 员 参 与 实验 。 


9.3 数据 确认 


数据 采集 后 ， 实 验 人 员 必 须 检 查 以 确定 数据 是 否 合理 以 及 是 否 是 正确 采集 的 ， 璧 
如 参与 者 是 否 理解 表格 并 正确 填写 了 数据 等 。 另 外 一 种 错误 是 参与 者 可 能 没有 认真 地 
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进行 实验 ， 这 部 分 数据 也 应 该 在 分 析 前 从 数据 集中 移 除 。 数 据 异 常 分 析 将 在 10. 2 节 进 
一 步 讨论 。 

评审 以 确保 实验 以 预期 的 方式 真实 地 执行 非常 重要 ， 壁 如 主体 是 否 按 正 确 的 顺序 
应 用 正确 的 处 置 。 如 果 出 现 差错 ， 则 无 疑 数据 是 无 效 的 。 

召开 研讨 会 或 者 提供 其 他 某 种 展示 数据 收集 结果 的 方法 ， 是 检查 参与 者 是 否 理解 
实验 意图 的 有 效 途径 。 这 提供 了 一 种 机 会 ， 让 参与 者 可 能 反思 那些 他 们 不 同意 的 结果 ， 
也 有 助 于 建立 长 期 的 信任 。 具 体 见 2. 11 市。 


9.4 操作 举例 


以 8. 10 节 介 绍 的 实验 设计 作为 操作 的 输入 ， 包 含 三 个 必需 的 步骤 。 

准备 。 首 先 要 确定 主体 。 在 这 个 例子 中 ,邀请 博士 和 硕士 学 生 作为 主体 。 一 旦 有 
了 潜在 的 参与 者 集合 ， 说 服 他 们 参加 实验 并 获得 其 承诺 是 非常 重要 的 。 初 步 承 诺 后 ， 
必须 确保 参与 者 同意 。 建 议 使 用 知情 通知 书 ， 即 便 不 一 定 需要 正式 的 条 款 。 其 他 要 考 
虑 的 就 是 与 实验 伦理 有 关 的 问题 ， 见 9. 1. 1 节 。 必 须 随机 地 为 各 个 处 置 分 配 主体 。 如 
果 设 计 包括 分 块 因子 〈 如 学 生 类 型 ) ， 主 体 应 该 先 按 因子 分 块 ， 然 后 再 在 每 个 块 组 中 
随机 指派 到 各 个 处 置 。 如 果 是 平衡 设计 ， 则 应 该 为 每 个 组 选择 同样 数目 的 主体 。 

下 一 步 要 确保 需要 的 基础 设施 就 位 。 包 括 合 适 的 房间 ， 璧 如 房间 应 该 给 主体 之 间 
留 出 足够 的 距离 ; 供 所 有 主体 使 用 的 实验 文档 和 表格 副本 ; 房间 中 的 钟表 ， 供 主体 记 
录 收 集 数 据 花 费 的 时 间 ， 不 能 假定 每 个 人 都 用 自己 的 时 钟 ; 等 等 。 

执行 。 实 验 中 很 重要 的 是 要 确保 人 们 合适 地 分 散在 房间 中 。 做 审查 实验 时 ， 有 可 
能 在 一 次 实验 中 让 所 有 主体 在 同一 时 间 进 行 审查 。 这 也 意味 着 方便 为 实验 中 的 任何 问 
题 提供 支持 。 根 据 实验 中 采用 手工 方式 还 是 用 计算 机 填 表 ， 也 应 做 好 相应 的 工具 准备 。 

数据 确认 。 最 后 ， 收 集 的 数据 必须 得 到 确认 。 有 的 时 候 ， 一 些 主体 很 早 结束 并 离 
开 ， 他 们 完成 的 表格 必须 仔细 检查 以 确保 他 们 是 以 合理 的 方式 填写 了 表格 。 此 外 ， 必 
须 检 查 每 个 人 都 理解 了 正确 填写 数据 的 方式 ， 否 则 必须 移 除 一 些 未 正确 收集 的 数据 。 


9.5 练习 


9.1 在 选择 主体 时 ， 应 该 考虑 哪些 因素 ? 

9.2 为 什么 在 实验 中 伦理 问题 是 重要 的 ? 

9.3 为 什么 必须 在 实验 前 精心 准备 必需 的 实验 工具 ? 

9.4 数据 确认 是 什么 ? 为 什么 需要 在 统计 分 析 之 前 进行 数据 确认 ? 

9.5 在 实验 结果 中 涉及 个 人 利益 时 ， 如 何 与 主体 沟通 ? 或 者 应 该 如 何 处 理 ? 
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从 操作 阶段 获得 的 实验 数据 将 作为 分 析 与 解释 阶段 的 输入 。 在 操作 阶段 收集 了 
实验 数据 之 后 ， 我 们 希望 通过 这 些 数据 能 够 推导 出 一 些 结论 。 而 为 了 能 够 推导 出 有 
效 的 结论 ， 则 必须 解释 实验 数据 。 定 量 解 释 可 以 通过 如 图 10-1 中 所 示 的 三 个 阶段 来 
实施 。 





图 10-1 定量 解释 的 三 个 步骤 


第 一 阶段 ， 采 用 描述 性 统计 分 析 数 据 特征 ， 包 括 可 视 化 居中 趋势 、 离 散 程 度 等 ; 
第 二 阶段 ， 移 除 异常 数据 或 错误 数据 ， 即 将 数据 集约 简 成 有 效 数据 点 集 ; 第 三 阶段 ， 
使 用 假设 检验 分 析 数 据 ， 并 在 给 定 的 显著 性 水 平 下 统计 评估 实验 假设 。 后 续 章 节 将 对 
这 几 个 阶段 进行 更 详细 的 描述 。 


10.1 描述 性 统计 


描述 性 统计 常用 于 数据 集 的 展示 和 数值 处 理 。 收 集 了 实验 数据 之 后 ， 可 利用 描述 
性 统计 将 数据 集 的 某 些 方面 进行 描述 和 图 形 化 展示 ， 如 在 某 种 尺度 下 的 数据 展示 、 数 
据 集 的 集中 程度 或 分 散 程 度 如 何等 。 描 述 性 统计 的 目标 是 描述 数据 集 是 如 何 分布 的 。 
为 了 更 好 地 理解 数据 的 性 质 、 识 别 出 异 常数 据 或 错误 数据 (也 称 作 离 群 点 ) ， 描 述 性 
统计 可 能 会 在 执行 假设 检验 之 前 进行 。 

本 节 将 介绍 一 些 描述 性 统计 和 绘图 技术 ， 以 帮助 我 们 了 解 一 个 数据 集 的 概貌 。 度 
量 的 尺度 ( 见 第 3 章 ) 限制 了 统计 的 类 型 ， 而 统计 类 型 又 会 影响 计算 结果 。 表 10-1 总 
结 了 一 些 统计 学 方法 及 这 些 方法 可 以 使 用 的 尺度 。 值 得 注意 的 是 ， 如 表 10-1 所 示 ， 某 
种 尺度 类 型 的 度量 手段 可 以 被 多 种 尺度 使 用 ， 如 众 数 (mode) 在 四 种 尺度 中 均 可 
使 用 。 
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#10-1 每 种 尺度 所 对 应 的 一 些 相 关 统 计 























尺度 类 型 居中 趋势 度量 离 散 性 依赖 关系 
定 类 尺度 众 数 频率 

atic F Sah Spearman 相关 系数 
定 序 尺度 中 位 数 、 百 分 位 数 变化 间隔 aa eee 
定 距 尺 度 均值 、 方 差 和 值 域 标准 差 Pearson 相关 系数 
定 比 尺度 几何 平均 数 变异 系数 


10. 1. 1 居中 趋势 的 度量 


居中 趋势 的 度量 指标 (如 均值 、 中 位 数 、 众 数 ) 表征 了 一 个 数据 集 的 “中 间 ”。 
如 果 通 过 对 随机 变量 采样 获得 了 数据 集中 的 数据 点 ， 那 么 统计 获得 的 这 个 中 间 点 ( 通 
常 称 作 平 均 数 ) 就 可 以 被 解释 为 对 这 个 随机 变量 的 期 望 的 估计 。 

在 描述 居中 趋势 度量 中 ， 假 设 对 某 个 随机 变量 进行 采样 ， 获 得 nn 个 数据 点 x1 ，…， 
xno 其 (算术 ) 均值 x 的 计算 方式 如 下 : 

i 

均值 适用 于 定 距 尺度 和 定 比 尺度 的 居中 趋势 度量 。 例 如 ,数据 集 (1, 1, 2, 4) 
的 均值 根据 上 式 计算 可 得 : x =2. 0。 

中 位 数 x 表示 一 个 数据 集中 处 于 中 间 位 置 的 数据 值 ， 也 就 是 说 样本 中 大 于 中 位 数 
的 样本 数目 与 小 于 中 位 数 的 样本 数目 相同 。 中 位 数 可 以 通过 对 样本 进行 升序 或 者 降序 
排列 ， 然 后 挑选 出 中 间 位 置 的 样本 来 计算 。 如 果 n 是 奇数 ， 很 明显 中 位 数 就 是 中 间 位 
置 的 数 ; 如 果 为 偶数 ， 中 位 数 取 中 间 两 个 数值 的 算术 平均 数 。 计 算 算 数 平均 数 的 操 
作 要 求 尺度 至 少 是 等 距 的 。 如 果 尺 度 是 顺序 类 型 的 ， 则 可 以 通过 随机 选择 其 中 一 个 或 
者 用 一 个 中 间 值 对 来 表示 中 位 数 。 

中 位 数 适用 于 类 型 为 定 序 尺度 、 定 距 尺 度 和 定 比 尺度 的 数据 。 例 如 ， 我 们 可 以 计 
算出 数据 集 (1,1, 2, 4) 的 中 位 数 为 x =1.5。 

中 位 数 是 百 分 位 数 的 一 个 特殊 情况 ， 也 就 是 位 置 在 50% 的 数 ， 定 义 为 xs0w ， 表 示 
有 50% 的 样本 位 于 xs0% 之 下 。 一 般 来 说 ， 百 分 位 数 x,w 表示 样本 中 有 p% 的 样本 数据 
位 于 这 个 值 之 下 。 百 分 位 数 对 于 类 型 为 定 序 尺 度 、 定 距 尺 度 和 定 比 尺度 的 数据 是 有 意 
义 的 。 

众 数 代 表 最 常 出 现 的 样本 值 。 通 过 计算 样本 中 每 一 个 数值 出 现 的 次 数 并 选择 其 中 
出 现 次 数 最 多 的 值 ， 就 可 以 计算 出 众 数 。 如 果 出 现 次 数 最 高 的 值 只 有 一 个 ， 则 众 数 是 
显而易见 的 。 如 果 一 个 样本 中 出 现 次 数 最 高 的 值 有 奇数 个 ， 则 可 以 用 这 奇数 个 值 的 中 
闻 值 作为 众 数 。 而 这 第 二 个 操作 要 求 尺 度 至 少 是 定 序 的 ; 如果 是 定 类 尺度 ， 则 可 以 在 
出 现 次 数 最 高 的 样本 值 中 随机 选择 一 个 作为 众 数 或 者 用 这 些 最 常见 样本 值 构造 值 对 来 
表示 众 数 。 
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众 数 适用 于 描述 定 类 尺度 、 定 序 尺度 、 定 距 尺 度 和 定 比 尺度 的 数据 。 例 如 ， 数 据 
集 (1，1，2，4) 的 众 数 为 1。 
几何 平均 数 是 一 种 不 太 常 见 的 度量 居中 趋势 的 方法 ， 其 值 为 所 有 样本 值 乘积 的 
次 方 根 ， 计 算 公 式 如 下 所 示 。 
yi” 


如 果 所 有 样本 都 是 非 负 的 并 且 对 定 比 尺度 有 意义 ， 则 几何 平均 数 是 良 定义 的 。 如 
图 10-2 所 示 ， 如 果 样 本 的 分 布 是 对 称 的 ， 则 其 (算术 ) 平均 数 和 中 位 数 相等 。 如 果 分 
布 既 是 对 称 的 又 具有 唯一 的 最 大 值 ， 则 度量 居中 趋势 的 这 三 个 值 都 相等 ， 如 果 样 本 的 
分 布 是 偏 态 分 布 ， 则 其 均值 、 中 位 数 和 众 数 可 能 不 同 。 





> > 


对 称 分 布 非 对 称 分 布 
图 10-2 对称 分 布 的 均值 、 中 位 数 和 众 数 相同 ， 非 对 称 分 布 的 均值 、 中 位 数 和 众 数 可 能 不 同 


例如 ， 如 果 分 布 中 的 右 尾部 分 长 ， 则 均值 会 增 大 ， 而 中 位 数 和 众 数 并 不 受 影响 。 
这 表明 均值 是 一 个 更 敏感 的 度量 指标 。 然 而 ， 它 要 求 数据 至 少 是 定 序 尺度 的 ， 因 此 ， 
当 尺 度 类 型 不 满足 条 件 时 ， 就 无 法 使 用 均值 来 度量 居中 趋势 。 


10. 1.2 离散 性 的 度量 


居中 趋势 的 度量 并 不 能 展示 数据 集 的 离散 性 。 因 此 ， 我 们 还 需要 测量 数据 集 偏 离 
居中 趋势 的 水 平 ， 即 数据 有 多 么 集中 或 者 有 多 人 么 发 散 。 (样本 ) 方差 是 一 种 常用 的 离 
散 性 度量 方法 ， 记 为 x， 其 计算 方式 如 下 : 

ly ss 
s? rect! (x; -—x)? 

因此 ， 方差 表示 的 是 数据 与 样本 均值 的 平方 距离 。 公 式 中 的 分 母 是 n -1 而 不 是 
n， 这 看 起 来 可 能 很 奇怪 ,但 是 这 样 做 可 以 使 得 方差 得 到 一 些 期 望 的 属性 。 具 体 而 言 ， 
样本 方差 是 随机 变量 方差 的 一 致 无 偏 估 计量 。 方 差 对 类 型 为 定 距 尺 度 和 定 比 尺度 的 数 
据 有 意义 。 

标准 差 记 为 s， 定 义 为 方差 的 平方 根 : 


:= US (4; -E 
标准 差 比方 差 更 常用 ， 因 为 它 与 数据 值 本 身 维度 (度量 单位 ) 相同 。 标 准 差 对 类 
型 为 定 距 尺度 和 定 比 尺度 的 数据 有 意义 。 
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数据 集 的 值 域 (range) 指数 据 中 最 大 值 和 最 小 值 之 间 的 距离 : 
Tange = Xmax — Xmin 
值 域 的 值 对 类 型 为 定 距 尺度 和 定 比 尺度 的 数据 有 意义 。 
变化 区 间 (variation interval) 用 数值 对 (x,,;, ，%,s) 表示 ， 其 中 包括 数据 集 的 最 
小 值 和 最 大 值 。 变 化 区 间 对 类 型 为 定 序 尺 度 、 定 距 尺 度 和 定 比 尺度 的 数据 有 意义 。 
有 时 离散 性 可 以 用 均值 的 百分比 表示 ， 即 变异 系数 (coefficient of variation), 733 
如 下 : 


+ x100% 
x 


变异 系数 没有 维度 ， 它 对 于 类 型 为 定 比 尺度 的 数据 有 意义 。 

离散 性 一 般 而 言 可 以 通过 每 个 数值 出 现 的 频率 来 表示 。 频 率 表 就 是 通过 列 出 每 个 
不 同 值 和 其 出 现 的 次 数 的 方法 构造 的 。 通 过 将 每 个 频率 与 样本 总 数 相 除 可 以 得 到 相对 
频率 (relative frequency) 。 例 如 ， 对 于 一 个 有 13 个 样本 的 数据 集 (1, 1, 1, 2, 2, 
3,4, 4,4, 5,，6，6, 7) ， 可 以 创建 如 表 10-2 所 示 的 频率 表 。 频 率 对 所 有 尺度 类 型 
的 数据 来 说 都 是 有 意义 的 。 


表 10-2 频率 表 实例 


数 值 频 数 相对 频率 
| 23% 
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10.1.3 依赖 关系 的 度量 

当 数 据 集 是 由 随机 变量 X 和 了 产生 的 关联 样本 (xi, yi) 组 成 时 ， 度 量变 量 间 的 
依赖 关系 通常 是 有 意义 的 。 

如 果 针 和 了 可 以 通过 某 函 数 y=f(x) 关联 起 来 ， 就 可 以 利用 样本 估计 这 个 函数 。 
如 果 假 设 函 数 y = f(x) 是 线性 的 并 且 可 以 写成 y=a+pBx 的 形式 ， 则 可 以 使 用 线性 回归 
ik (linear regression) 来 估计 这 个 函数 。 回 归 意 指 利用 数据 点 来 拟 合 某 个 曲线 ， 在 本 
案例 中 ， 我 们 将 展示 如 何 通过 直线 拟 合 来 做 线性 回归 ， 使 得 各 数据 点 到 该 直线 的 平方 
距离 之 和 最 小 。 在 给 出 公式 之 前 ,需要 定义 下 列 经 常 出 现 的 “和 ”的 简单 表示 : 


Sax = 2 (x; - x)? 
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ay = > (yi -y)? 
i=l 


Sy = D(x - D497) = (Dad - Ca) (Tn) 


这 些 “ 和 ”可 用 于 计算 回归 线 y=y +B (x -xx) ， 其 斜率 为 : 
S 

并 且 该 直线 与 y 轴 交 于 点 w=y -Bx。 

如 果 依 赖 关 系 不 是 线性 的 ， 则 可 能 可 以 通过 寻找 一 种 数据 转换 将 该 关系 转换 为 线 
性 关系 ， 再 使 用 线性 回归 法 。 例 如 ， 如 果 关 系 是 指数 型 的 ，y = ax# ， 这 就 意味 着 对 数 
据 进行 对 数 转换 可 以 得 到 线性 关系 log(y) =log(a) +Blog(x*)。 因 此 ， 在 对 数 转换 之 
后 ， 我 们 就 可 以 用 线性 回归 计算 该 直线 的 参数 。 

度量 两 个 数据 集 x; Fly; 间 的 差别 有 多 大 时 ， 可 以 使 用 协 方差 〈covariance ) 。 协 方 
差 也 是 度量 依赖 关系 的 一 种 方法 ， 记 为 cw。 其 定义 如 下 : 

S 
fay =i 

协 方差 对 类 型 为 定 距 尺 度 和 定 比 尺度 的 数据 有 意义 。 协 方差 取决 于 每 个 变量 的 方 
差 ， 并 且 为 了 能 比较 不 同 相 关 变 量 间 的 依赖 关系 ， 协 方差 可 被 规范 化 为 x; 和 Yi 的 标准 
差 。 这 样 就 可 以 得 到 相关 系数 + (correlation coefficient) ， 也 称 为 Pearson 相关 系数 。 其 
计算 公式 如 下 : 

py Sy (n> arr) ( aa Y a) 
r Bay MaE - (Ee) aD - (Dd) 

r 取 值 -1 到 +1 之 间 。 当 数据 间 没 有 相关 性 时 ，r 值 为 0; 但 是 反 过 来 是 不 成 立 
的 。 因 为 即使 当 r=0 RF, x; Aly; 也 可 能 是 非 线 性 的 强 相 关 。( Pearson ) 相关 系数 只 度 
量 线 性 依赖 ， 如 果 x; 和 y; 的 数据 尺度 类 型 是 定 距 尺度 或 定 比 尺度 时 ， 这 时 计算 其 相关 
系数 是 有 意义 的 。 相 关系 数 适合 衡量 呈正 态 分 布 的 数据 。 

如 果 数 据 尺度 类 型 是 定 序 尺度 或 者 数据 不 符合 正 态 分 布 时 ， 可 以 使 用 Spearman 等 
级 相关 系数 (Spearman rank-order correlation coefficient) ， 记 为 r,。Spearman 等 级 相关 
系数 的 计算 方法 与 Pearson 相关 系数 相似 ,使 用 秩 ( 即 样本 排序 后 的 序号 ) 来 代替 样 
本 值 ， 例 子 可 参见 Siegel 和 Castellan [157], 

另 一 种 对 依赖 关系 进行 度量 的 方法 是 Kendall 等 级 相关 系数 法 (Kendall rank-order 
correlation coefficient) ， 记 为 了。Kendall 等 级 相关 系数 和 Spearman 等 级 相关 系数 一 样 ， 
适用 于 排序 数据 ， 即 数据 至 少 是 成 对 有 序 的 样本 。 然 而 Kendall 等 级 相关 系数 的 基础 理 
论 不 同 ， 它 关注 在 样本 排序 中 计数 排序 意见 相同 和 不 同 的 意见 数量 ,例子 可 参见 Siegel 
和 Castellan [157], 
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如 果 变 量 超过 两 个 ， 则 可 以 使 用 多 变量 分 析 (multivariate analysis) ， 包 含 多 元 回 
Ja (multiple regression) 、 主 成 分 分 析 (principal component analysis，PCA) 、 聚 类 分 析 
(cluster analysis) 和 判别 式 分 析 (discriminant analysis) 。 这 些 技 术 的 介绍 可 参见 各 种 统 
计 学 文献 ， 如 Manly[ 118] 和 Kachigan[90, 91], 


10.1.4 图 形 可 视 化 


在 描述 一 个 数据 集 时 ， 定 量度 量 其 居中 趋势 、 离 散 性 和 依赖 关系 时 ， 应 该 结合 图 
形 可 视 化 技术 。 因 为 图 形 非常 直观 ， 能 很 好 地 呈现 数据 集 的 概貌 。 

散 点 图 (scatter plot) 是 一 种 简单 但 有 效 的 图 示 ， 如 
图 10-3 所 示 ， 将 成 对 的 样本 点 根据 其 坐标 值 (x yi) 绘 
制 到 二 维 坐 标 系 内 。 

散 点 图 可 以 用 于 评估 变量 之 间 的 依赖 关系 。 通 过 检查 ha” 
HAR, RAD RBH AE Onl op Ap AREA, FP eF e 
断 数据 之 间 是 否 有 存在 线性 依赖 关系 的 倾向 。 我 们 可 以 识 图 10-3 散 点 图 
别 出 不 合 规则 的 点 ( 离 群 点 ) 并 观察 到 点 与 点 之 间 的 相关 
关系 。 图 10-3 中 ， 数 据点 之 间 有 一 种 正 相 关 的 线性 趋势 ， 我 们 也 可 从 中 发 现 潜在 的 离 
群 点 。 在 这 个 特例 中 ， 存 在 一 个 候选 的 离 群 点 。 

箱 形 图 有 助 于 我 们 观察 样本 的 离散 性 和 偏 度 (skewedness) 。 如 图 10-4 所 示 ， 箱 形 
图 是 通过 对 不 同 的 百 分 位 数 进行 图 形 化 展示 来 构造 的 。 箱 形 图 有 不 同 的 制作 方式 ， 这 
里 我 们 选用 Fenton 、Pfleeger 和 Frigge 等 人 [56, 60] 所 倡议 的 方式 来 绘制 。 不 同 绘 
制 方式 的 主要 区 别 在 于 如 何 处 理 箱 尾 (whiskers)。 有 的 文献 (如 Montgomery[ 125 ] ) 
认为 ， 箱 尾 (上 尾 和 下 尾 ) 应 该 使 用 数据 集 的 最 大 值 和 最 小 值 来 表示 ， 而 Fenton 和 
Pfleeger[ 56] 则 提议 使 用 箱 体 长 度 的 1.5 倍 分 别 加 减 数据 集 的 上 下 四 分 位 数 来 表示 
箱 尾 。 


y 














It Iq m uq ut 
EE \ 离 群 点 
| | | | E wees | 
图 10-4 箱 型 图 


箱 体 中 间 标 为 m 的 线 代 表 数 据 集 的 中 位 数 ， 下 四 分 位 数 (lg) 是 指 25% 分 位 数 
ONF m 的 数据 的 中 位 数 ) ， 上 四 分 位 数 (Cug) 是 指 75% 分 位 数 ( 大 于 m 的 数据 的 中 
位 数 ) 。 箱 体 的 长 度 d = ug -1g。 

箱 体 的 边缘 (lt 和 wut) 表示 数据 的 理论 边界 。 如 果 数 据 集 是 正 态 分 布 的 ， 则 所 有 
数据 都 应 该 能 在 上 边缘 和 下 边缘 之 间 找 到 。 上 边缘 ut 由 ug +1.54 HSB, FIR lt 
则 相应 地 由 Ug -1.54 计算 得 到 [60]。 为 了 避免 无 意义 的 值 ( 例 如 负 的 代码 行 数 ) ， 边 
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缘 值 应 该 截断 到 其 最 接近 的 实际 值 。 

位 于 上 边缘 和 下 边缘 之 外 的 值 被 称 为 离 群 点 ， 应 该 明确 地 在 箱 形 图 中 展示 出 来 。 
如 图 10-4 所 示 ， 其 中 有 三 个 离 群 点 。 

HA A (histogram) 可 以 用 来 展示 来 自 同 一 变量 的 样本 的 分 布 密度 情况 。 如 
图 10-5 所 示 ， 一 个 直方 图 由 一 组 高 低 不 同 的 矩形 构成 ， 和 矩形 的 高 度 代 表 一 个 值 或 者 一 
个 区 间 的 出 现 频 率 (或 者 是 相对 频率 )， 因 此 ， 直 方 图 也 是 频 度 表 的 图 形 化 表示 。 正 
态 分 布 是 我 们 应 该 特别 关注 的 一 个 分 布 ， 因 为 我 们 进行 数据 分 析 时 ， 必 须 考 虑 数据 是 
否 符合 正 态 分 布 。 直 方 图 可 以 用 来 初步 判断 数据 集 是 否 近 似 于 正 态 分 布 。 当 然 也 可 以 
检验 数据 是 否 符合 正 态 分 布 ， 这 一 点 我 们 将 在 10. 3 节 介 绍 卡 方 检验 时 进行 深入 讨论 。 


Wt 





图 10-5 直方 图 


累积 直方 图 (cumulative histogram) 如 图 10-6 所 示 ， 可 以 用 于 描述 一 个 变量 的 样 
本 的 概率 分 布 函数 。 图 中 每 一 个 矩形 表示 到 目前 类 别 为 止 所 有 出 现 的 频率 值 的 累积 和 。 

如 图 10-7 所 示 ， 饼 图 (pie chart) 用 来 描述 将 数据 值 分 为 若干 特定 类 别 后 ， 各 类 
别 之 间 的 相对 频率 。 人 饼 图 将 各 个 类 别 的 片段 组 合成 一 个 圆 ， 其 中 每 个 扇形 的 角度 与 本 
类 的 相对 频率 成 正比 。 
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图 10-6 累积 分 布 直方 图 图 10-7 AI 


10.2 数据 约 简 
10.3 节 将 介绍 一 系列 的 统计 方法 。 这 些 方法 都 有 一 个 共同 点 一 它们 的 统计 结 
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果 高 度 依赖 于 输入 数据 的 质量 。 如 果 统计 方法 使 用 的 数据 并 不 具备 应 有 的 性 质 ， 那 么 ， 
利用 这 些 方法 的 输出 结果 推导 出 的 结论 当然 就 不 会 正确 。 

数据 集 之 中 的 错误 可 能 是 系统 误差 ， 也 可 能 是 离 群 点 。 离 群 点 意味 着 这 些 数据 点 
与 其 他 数据 点 相 比 可 能 偏离 期 望 值 很 多 ， 如 图 10-8 所 示 。 


x x ”< 一 一 一 高 群 点 








>x 


图 10-8 ”一 个 在 散 点 图 中 被 检测 出 的 离 群 点 


如 图 10-8 所 示 ， 绘 制 散 点 图 是 一 种 识别 离 群 点 的 有 效 途 径 。 绘 制 如 图 10-4 所 示 
的 箱 形 图 也 是 一 种 途径 。 有 一 些 统计 学 方法 可 以 用 来 识别 离 群 点 。 例 如 ， 假 设 数据 集 
符合 正 态 分 布 ， 则 可 以 计算 出 某 个 值 (例如 最 大 值 和 最 小 值 ) 属于 该 正 态 分 布 的 概 
率 。 这 可 以 通过 计算 可 能 的 离 群 点 同 均值 之 间 的 差异 ， 或 计算 离 群 点 与 其 最 近 的 相 邻 
点 之 间 的 差异 来 进行 。 当 发 现 差 异 较 大 时 ， 测 定 出 这 些 差异 出 现 的 概率 。 这 种 方法 旨 
在 评估 那些 发 现 的 、 看 起 来 像 是 极 值 点 的 离 群 点 是 否 确 有 可 能 来 自 于 正 态 分 布 。 

应 该 注意 的 是 ， 此 处 谈论 的 数据 约 简 同 第 9 章 讨论 的 数据 确认 有 关 。 数 据 确认 处 
理 的 是 由 实验 执行 不 当 而 产生 的 虚假 数据 点 ， 比 如 ， 判 定 人 们 是 否认 真 参与 实验 。 本 
他 讨论 的 数据 约 简 并 不 仅仅 关注 由 于 实验 执行 不 当 而 产生 的 虚假 数据 点 ， 还 关注 收集 
的 数据 分 析 得 到 的 结果 ， 例 如 采用 描述 性 统计 方法 得 到 的 结果 。 

确定 了 离 群 点 以 后 ， 决 定 如 何 处 理 它们 也 很 重要 。 处 理 并 不 仅仅 意味 着 在 图 中 标 
识 这 些 数 据 ， 分 析 离 群 点 的 产生 原因 也 很 重要 。 如 果 离 群 点 是 由 异常 或 偶然 事件 引起 
的 ， 且 此 类 事件 不 再 发 生 ， 则 可 以 将 此 类 离 群 点 移 除 。 例 如 ， 如 果 这 个 点 是 完全 错误 
的 或 者 被 曲解 的 ， 则 可 以 移 除 它 。 

如 果 离 群 点 的 出 现 是 由 于 偶然 事件 引发 的 ， 但 该 事件 有 可 能 再 次 发 生 ， 例 如 ， 
如 果 一 个 模块 是 由 一 个 没有 经 验 的 员工 实现 的 ， 那 么 我 们 不 建议 将 此 离 群 点 移 除 ， 
因为 此 类 离 群 点 包含 了 太 多 的 相关 信息 。 如 果 离 群 点 的 出 现 归 因 于 尚未 考虑 的 变量 ， 
例如 工作 人 员 的 经 验 ， 就 应 该 将 此 变量 纳入 模型 和 计算 中 考虑 。 这 也 可 能 会 派生 出 
两 种 模型 。 就 以 这 个 员工 经 验 的 案例 为 例 ， 这 意味 着 可 以 将 模型 分 为 为 正常 员工 建立 
的 模型 〈 其 中 离 群 点 被 移 除 ) 和 为 没有 经 验 的 员工 建立 的 模型 。 对 待 离 群 点 时 应 该 一 
事 一 议 。 

除了 需要 将 无 效 的 数据 从 数据 集中 移 除外 ， 完 余数 据 有 时 也 需要 进行 处 理 。 如 果 
元 余数 据 太 多 ， 有 时 会 使 得 分 析 无 效 。 因 子 分 析 和 主 成 分 分 析 (PCA) 可 以 用 于 识别 
元 余数 据 。 这 些 技术 能 够 识别 正 交 因子 ， 从 而 替换 原始 因子 。 由 于 这 方面 的 技术 与 本 
书 的 相关 性 不 大 ， 在 此 不 再 熬 述 ， 需 要 者 可 参见 Kachigan[90, 91] 和 Manly[118] 。 
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10.3 假设 检验 


10. 3.1 基本 概念 


假设 检验 的 目的 是 确定 是 否 能 够 基于 某 统计 分 布 的 一 个 样本 拒绝 某 个 原 假设 加。 
也 就 是 说 ， 原 假设 描述 了 分 布 (用 于 抽取 样本 的 分 布 ) 所 具有 的 一 些 性 质 ， 实 验 者 希 
望 拒绝 该 假设 ， 即 在 给 定 的 显著 性 水 平 下 这 些 性 质 为 真是 不 成 立 的 。 原 假设 在 第 8 章 
中 已 经 进行 过 讨论 。 通 常情 况 下 ， 分 布依 赖 于 单个 参数 。 设 定 了 友 就 意味 着 明确 描述 
了 分 布 ， 并 给 将 要 被 检验 的 参数 赋 了 值 。 
例如 ,假如 一 个 实验 者 观察 到 了 一 辆 车 ,并且 希 望 说 明 这 辆 车 不 是 一 辆 小 汽车 。 
实验 者 知道 所 有 的 小 汽车 都 有 4 PEHR, 但 他 也 知道 除了 小 汽车 之 外 也 存在 着 具有 4 
个 车 轮 的 车 辆 ， 此 时 ， 可 建立 一 个 非常 简单 的 原 假设 : “Ho: 观察 到 的 车 辆 是 小 汽 
Ea 
为 了 检验 Ho ， 我 们 定义 一 个 测试 单元 :， 并且 给 定 一 个 临界 区 域 C。 这 个 临界 区 
域 C 是 测试 单元 t 值 域 中 的 一 部 分 。 这 就 意味 着 显著 性 检验 可 以 表示 为 : 
e 如 果 teC， 则 拒绝 Hy. 
e 如 果 tgC， 则 不 拒绝 Ho 
在 本 例 中 ， 测 试 单元 上 是 车 轮 的 个 数 ， 临 界 区 域 是 C =1,， 2，3，5，6，…， 检 验 
是 假如 1<3 或 者 SS 则 拒绝 Hy, ， 否 则 不 拒绝 Hoo 
如 果 观 察 到 上 =4， 即 表示 不 能 拒绝 原 假 设 ， 但 也 不 能 得 出 结论 。 这 是 因为 除了 小 
汽车 之 外 还 有 其 他 车 辆 有 4 个 车 轮 。 
因此 ， 原 假设 应 该 选择 负面 的 陈述 ， 也 就 是 说 ， 检 验 的 目的 是 拒绝 原 假设 。 如 果 
无 法 拒绝 原 假设 ， 就 无 法 从 实验 结果 中 推导 出 任何 结论 ; 假如 能 够 拒绝 原 假设 ， 则 意 
味 着 在 给 定 的 显著 性 水 平 (a) 下 假设 是 假 的 ， 详 见 下 文 。 进 行 检 验 后 ， 往 往 能 够 计 
算出 最 低 显著 性 水 平 〈 通 常用 产值 来 表示 ) ， 表 示 该 显著 性 水 平 下 能 够 拒绝 原 假设 。 
统计 分 析 软 件 包 通常 会 报告 这 个 值 。 
临界 区 域 C 可 能 具有 不 同 的 形状 ， 但 它 通 常 表现 为 区 间 ， 例 如 ，i<a t>b, 如 
RC 包含 一 个 这 样 的 区 间 ， 则 C 是 单 边 的 ; 如 果 C 包含 两 个 区 间 (t<a, t>b, Ha 
<b), WC 是 双边 的 。 
假设 检验 有 如 下 三 个 重要 概率 : 
a =P(I 类 错误 ) = P( 拒 绝 Hy | Hy 为 真 ) 
B = P(I 类 错误 ) = P( 不 拒绝 有 1 H XB) 
Power = 1 -6B = P( 424 Hi| Hy WR) 
这 些 概率 已 经 在 第 8 章 中 讨论 过 了 。 
这 里 ,我 们 尝试 以 一 个 简单 但 很 有 说 服 力 的 检验 (二 项 式 检 验 ) 为 例 来 说 明 上 述 
概念 。 一 个 实验 人 员 在 测试 一 个 产品 时 发 现 了 若干 错误 ， 并 将 其 分 为 两 类 :“ 破 坏 型 错 
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误 ”( 会 破坏 程序 数据 的 错误 ) 和 “ 非 破坏 型 错误 ”( 不 会 破坏 程序 数据 的 错误 ) K 
验 者 的 理论 是 :“ 非 破坏 型 错误 ” 比 “破坏 型 错误 ”出 现 得 更 普遍 。 因 此 ， 实 验 者 想 
要 执行 一 个 检验 来 看 不 同类 型 错误 数目 的 差异 是 偶然 造成 的 还 是 一 种 系统 性 的 差异 。 

原 假设 即 为 测试 发 现 一 个 “破坏 型 错误 ”和 一 个 “ 非 破坏 型 错误 ”的 概率 没有 差 
异 。 也 就 是 说 ， 原 假设 可 以 用 公式 表示 为 : 

Hy :P(“ RRA BIR”) = 已 (“ 非 破坏 型 错误 ”) = 1/2 

设 定 a 应 该 小 于 0. 10。 实 验 者 得 到 的 数据 如 下 : 

。 有 11 个 错误 是 “ 非 破坏 型 错误 ”。 

。 有 4 个 错误 是 “破坏 型 错误 ”。 

如 果 原 假设 为 真 ， 那么 ， 当 测试 发 现 15 个 错误 时 “破坏 型 错误 ”不 多 于 4 个 
( 即 小 于 等 于 4) 的 概率 为 : 

Po ~ 4 个“ 破坏 开 并") = D ("8)(LY (1) = Jey (1) = 0.039 

io\G/\2/ \2 2° £6\ i 

也 就 是 说 ， 如 果实 验 者 根据 得 到 的 数据 推断 发 现 “ 非 破坏 型 错误 ” 比 “ 破 坏 型 错 
误 ” 更 普遍 的 结论 ， 则 其 犯 I 类 错误 的 概率 为 0. 059。 在 这 种 情况 下 ， 实 验 者 可 以 拒绝 
H, KX 0.059 <0. 10。 

假如 原 假设 为 真 ， 那 么 发 现 不 多 于 5 个 “破坏 型 错误 ”的 概率 为 0.1509。 这 个 值 
大 于 0. 10， 意 味 着 在 15 个 错误 中 发 现 了 5 个 “破坏 型 错误 ”时 ， 不 能 拒绝 Hoo Al, 
当 在 实验 中 检测 到 的 错误 数 为 15 时， 实验 者 可 以 按照 如 下 表述 进行 解释 : 

。 如 果 其 中 “破坏 型 错误 ”不 超过 4 个 ， 则 拒绝 加。 

。 如 果 其 中 “破坏 型 错误 ”超过 4 个 ， 则 无 法 拒绝 Hoo 

总 之 ,检测 到 的 (15 个 错误 中 ) “破坏 型 错误 ”的 数目 是 检验 单元 ， 而 临界 区 域 
Æ0, 1, 2,3,4 〈“ 破 坏 型 错误 ” 数 ) 。 

基于 此 ， 判 定 该 检验 的 效能 非常 有 意义 。 由 于 效能 是 当 名 不 为 真 的 时 候 拒绝 Hoh 
概率 ， 因 此 我 们 必须 用 公式 明确 地 表达 A 不 为 真 的 含义 。 在 本 例 中 , “HARA” M 
公式 可 以 表示 为 : 

P(“ 破 坏 型 错误 ”) < P(“ 非 破坏 型 错误 ”) 
由 于 两 个 概率 之 和 等 于 1， 它 也 能 用 如 下 公式 描述 : 
P(“ 破 坏 型 错误 ”*”) =a < 1/2 

在 15 个 错误 中 收 到 不 多 于 4 个 “破坏 型 错误 ”的 概率 (也 就 是 当 加 为 假 的 时 候 

拒绝 名 的 概率 ) 是 : 


pp > (Ja! (1 a) 5 


图 10-9 描绘 了 这 个 概率 值 随 a 值 变化 而 变化 的 趋势 。 
由 此 可 知 ， 如 果 发 现 “破坏 型 错误 ”的 概率 和 发 现 “ 非 破坏 型 错误 ”的 概率 的 差 
异 大 ， 则 检验 效能 高 。 例 如 ， 当 a = 0.05 时 ， 发现“ 破坏 型 错误 ”的 数目 小 于 等 于 4 
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的 可 能 性 很 大 。 另 一 方面 ， 如 果 差 异 很 小 ， 则 检验 效能 会 更 小 。 例 如 ， 当 a = 0.45 
时 ， 发现“ 破坏 型 错误 ”的 数目 大 于 4 的 可 能 性 则 会 很 大 。 
有 一 些 因 素 会 影响 检验 的 效能 。 首 先 ， 检验 本 1 
身 效能 会 有 差异 ; 其 次 ， 样 本 的 大 小 影响 检验 的 效 ”08 一 一 一 一 
能 。 一 个 更 大 的 样本 意味 着 更 高 的 效能 。 还 有 一 个 名 06| 一 一 一 一 
方面 可 能 影响 检验 效能 ， 即 选择 单 边 备 择 假设 还 是 党 04 一 


选择 双边 备 择 假设 。 单 边 假设 比 双边 假设 的 检验 效 02 一 一 一 


| 
| 
! 






E, > oI 02 03 04 os 
Dyba 等 人 对 假设 检验 在 软件 工程 实验 中 的 效能 a 
进行 了 评估 ， 并 且 进 行 了 深入 的 探讨 [49]. 图 10-9 单 边 二 项 式 检验 的 效能 


10. 3.2 参数 检验 和 非 参 数 检验 


检验 可 以 分 为 参数 检验 和 非 参数 检验 。 参 数 检验 是 建立 在 某 种 特定 分 布 模型 上 的 。 
在 大 多 数 情况 下 ， 我 们 会 假设 参数 检验 中 涉及 的 某 些 参 数 是 符合 正 态 分 布 的 。 卡 方 检 
验 是 一 种 正 态 性 检验 ， 在 下 面 讨论 不 同 的 检验 类 型 时 ， 将 对 其 进行 更 进一步 的 介绍 。 
参数 检验 还 要 求 参数 至 少 是 通过 定 距 尺度 度量 的 ， 否 则 无 法 使 用 参数 检验 。 此 时 ， 就 
需要 使 用 各 种 非 参数 检验 方法 。 

非 参 数 检验 关于 参数 分 布 的 假设 类 型 与 参数 检验 的 不 同 。 在 进行 非 参 数 检验 时 ， 
我 们 只 需要 做 些 非常 通用 的 假设 。 比 如 ， 之 前 小 节 中 描述 过 的 二 项 式 检验 就 是 一 种 非 
参数 检验 。 非 参数 检验 比 参数 检验 更 通用 。 这 意味 着 如 果 样 本 可 以 使 用 参数 检验 方法 
来 检验 ， 通 常 只 要 有 可 用 的 非 参数 检验 可 用 ， 都 可 以 用 非 参数 检验 代替 参数 检验 ; 但 
当 使 用 非 参数 检验 时 ， 却 往往 无 法 使 用 参数 检验 来 代替 。 关 于 选择 参数 检验 还 是 非 参 
数 检验 ， 需 要 考虑 以 下 两 个 因素 。 

(1) 适用 性 : 不 同 的 检验 需要 满足 的 假设 分 别 是 什么 ? 确保 关于 参数 分 布 的 假设 
成 立 和 假设 所 使 用 的 尺度 符合 要 求 是 非常 重要 的 。 

(2) 效能 : 参数 检验 的 检验 效能 通常 高 于 非 参数 检验 。 因 此 ， 如 果 假 设 为 真 ， 则 
参数 检验 比 非 参数 检验 所 需 的 数据 点 更 少 ， 实 验 也 会 更 小 。 

Briand 等 人 也 对 参数 和 非 参数 统计 方法 的 选择 进行 了 讨论 [27] 。 在 他 们 的 讨论 中 
描述 了 在 参数 检验 需要 的 条 件 无 法 满足 的 情况 下 ， 虽 然 使 用 参数 检验 方法 存在 一 定 的 
风险 ， 但 在 有 些 情况 下 ， 仍 然 值得 冒险 尝试 。 仿 真实 验 结果 显示 ， 只 要 偏差 不 是 很 大 ， 
参数 检验 方法 〈 比 如 将 要 介绍 的 上 检验 ) 对 于 偏离 前 置 条 件 ( 定 距 尺度 ) 有 着 相当 强 
的 鲁 棒 性 。 


10.3.3 检验 综述 


除了 上 面 介绍 的 二 项 式 检验 外 ， 本 节 将 介绍 以 下 几 种 检验 方法 : 
(1) ft 检验 (t-test): 最 常 使 用 的 一 种 参数 检验 。 该 检验 用 于 比较 两 个 样本 的 均 





值 。 这 也 意味 着 实验 设计 采用 的 是 单 因子 双 处 置 设计 。 

(2) Mann-Whitney 检验 : 一 种 用 于 代替 二 检验 的 非 参数 检验 。 

(3) 上 -检验 (F-test): 一 种 用 于 比较 两 个 样本 分 布 情况 的 参数 检验 。 

(4) 配对 二 检验 (Paired t-test): 一 种 针对 成 对 比较 设计 的 七 检验。 

(5) Wilcoxon 检验 : 一 种 用 于 代替 配对 上 检验 的 非 参 数 检验 。 

(6) 符号 检验 (Sign test); 一 种 用 于 代替 配对 二 检验 的 非 参数 检验 。 符 号 检验 是 
Wilcoxon 检验 的 一 种 更 简单 的 替代 处 置 。 

(7) ANOVA 检验 : 一 类 用 于 单 因 子 多 级 别 设计 的 参数 检验 的 统称 。 例 如 ，ANO- 
VA 检验 能 够 用 于 单 因 子 多 级 别 设 计 、 单 因子 与 块 变量 设计 、 阶 乘 设计 和 艇 套 设计 等 设 
计 类 型 。 

(8) Kruskal-Wallis 检验 : 一 类 在 单 因 子 多 处 置 (大 于 2) 情况 下 代替 方差 分 析 的 
非 参 数 检验 。 

(9) 卡 方 检验 ( Chi-2) : 一 种 针对 频率 数据 的 非 参 数 检验 。 

根据 设计 类 型 和 是 否 是 参数 或 者 非 参 数 检验 对 不 同 的 检验 进行 分 类 ， 结果 如 
表 10-3 所 示 。 


表 10-3 不 同 设计 类 型 对 应 的 参数 检验 与 非 参 数 检验 概览 

































设 计 参数 检验 非 参 数 检验 
单 因子 单 处 置 卡 方 检验 、 二 项 式 检验 
单 因子 双 处 置 ， 完 全 随机 设计 t- 检 验 ，F- 检 验 Mann-Whitney 检验 、 卡 方 检验 
单 因子 双 处 置 ， 成 对 比较 | “配对 检验 Wileoxon 检验 ， 符 号 检验 
单 因子 多 处 置 (大 于 2) | “方差 分 析 Kruskal-Wallis 检验 , 卡 方 检验 
多 因子 EARS 


@ 本 书 中 没有 描述 这 种 检验 。 可 以 参阅 Marascuilo and Serlin [119] 和 Montgomery [125]. 


对 上 述 描述 的 所 有 检验 ， 下 文 将 按照 以 下 维度 用 独立 的 表格 依次 进行 介绍 : 

(1) WA: 检验 能 够 应 用 的 度量 类 型 。 也 就 是 说 ,输入 描述 了 对 实验 设计 的 需 
求 。 只 有 满足 需求 的 输入 才能 使 用 该 检验 方法 进行 检验 。 

(2) 原 假设 : 提供 一 个 原 假设 的 公式 化 描述 。 

(3) 计算 : 基于 度量 数据 描述 应 该 如 何 计算 。 

(4) 标准 : 拒绝 原 假设 的 标准 。 通 常会 涉及 查 统计 表 ， 在 本 书 附录 B 中 进行 了 描 
述 。 虽 然 本 书 仅 提 供 了 一 种 显著 性 水 平 下 的 对 照 表 ， 但 可 根据 书 中 给 出 的 参考 文献 找 
到 更 加 详尽 的 对 照 表 。 

这 里 ， 所 有 的 检验 描述 都 不 完整 。 如 果 需 要 更 多 相关 信息 ， 可 以 参考 正文 中 给 出 
的 参考 文献 。 例 如 ，Mann-Whitney 检验 、Wilcoxon 检验 、 符 号 检验 和 Kruskal-Wallis 检 
验 ， 都 只 使 用 了 少量 样本 用 最 简单 的 案例 进行 了 介绍 。 如 果 样 本 很 多 (比如 符号 检验 
中 样本 数量 超过 35)， 那 么 ,在 很 多 情况 下 是 很 难 计算 和 做 决策 的 (原因 将 在 下 面 讨 
论 ) 。 在 这 种 案例 中 ， 由 于 样本 很 多 ， 可 以 根据 样本 进行 某 种 近似 估计 。 如 何 估计 可 参 
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见 Siegel 和 Castellan[ 157] 的 论述 ， 其 中 还 描述 了 如 何 处 理 检验 中 发 生 等 值 〈 两 个 或 
者 两 个 以 上 的 相等 值 ) 的 情况 。 

本 文中 对 检验 描述 的 目标 是 : 使 得 读者 能 基于 描述 和 示例 使 用 该 检验 。 因 此 ， 并 
不 需要 提供 公式 推导 等 细节 信息 。 

使 用 上 面 介 绍 的 描述 方式 ， 我 们 在 10. 3. 1 节 中 介绍 的 检验 示例 (二 项 式 检验 ) 可 
总 结 为 表 10-4。 


表 10-4 二 项 式 检验 























项 E| 描 g 
输入 两 种 不 同类 型 的 事件 (事件 1 和 事件 2) 发 生 的 次 数 
Hy P (事件 1) =P (事件 2) 
计算 计算 p = F j M 其 中 放 是 事件 发 生 的 总 次 数 ，n 是 稀有 事件 发 生 的 次 数 
i=0 L 
双边 检验 备 择 假设 CH, :;P( 事 件 1) 关 PE( 事 件 2) ): Hp <a/2， 则 拒绝 Ho 
标准 单 边 检 验 备 择 假 设 CH: P( 事 件 1) <P( 事 件 2) ) : 车 p<a， 则 拒绝 而 ， 并 且 事 件 1 是 样本 中 
的 稀有 事件 


在 上 述 表格 中 ， 二 项 式 检验 的 原 假设 被 描述 为 两 个 事件 发 生 的 可 能 性 是 相等 的 。 
当然 ， 也 可 以 用 其 他 方式 建立 原 假 设 ， 比 如 声明 P( 事 件 1) =0.3, PC SF 2) =0.7。 
至 于 如 何在 案例 中 执行 检验 ， 可 以 参考 Siegel 和 Castellan[ 157] 等 文献 。 

对 于 本 章 中 介绍 的 大 部 分 检验 ， 我 们 都 举例 说 明了 其 如 何 使 用 。 这 些 示例 中 使 用 
的 数据 都 是 虚构 的 。 此 外 ， 这 些 检验 的 显著 性 水 平 主要 设 定 为 5% ， 在 附录 B 中 提供 
了 可 供 查询 的 对 照 表 。 

更 多 详尽 的 对 照 表 可 以 在 Marascuilo 和 Serlin| 119] 以 及 Montgomery[ 125] 等 与 统 
计 学 相关 的 书籍 中 查 到 。 


10. 3.4 七 检 验 


-检验 是 一 种 用 于 比较 两 个 独立 样本 的 参数 检验 。 也 就 是 说 ， 设 计 应 该 是 单 因子 
双 处 置 的 。t- 检 验 能 够 基于 许多 不 同 的 假设 执行 ， 但 这 里 仅 描述 一 种 经 常用 到 的 处 置 。 
如 需 更 多 信息 ， 可 以 参考 Montgomery[ 125 ] Siegel 和 Castellan[ 157], ， 以 及 Marascuilo 
和 Serlin[ 119] 的 示例 。 检 验 按照 表 10-5 执行 。 




















表 10-5 ft- 检验 
项 目 描 OR 
输入 两 个 独立 样本 : Xis X23 Xn 和 i， Yo s Ym 
Ho Hy = 上 ， 即 两 个 样本 的 期 望 均 值 是 相等 的 
p= n-1)S? -1)S? 
计算 | 18 = 一 于 二 一 , sons, = 和 /人 于 + 并且 S ast 是 独立 样本 方差 
S, 一 一平 一 一 
n m 
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(2) 
项 目 描 述 
双边 检验 备 择 假设 (H; : Hx zy ) : 若 | to | ED n4m~-2 ’ 则 拒绝 Ayo 这 里 ， 如 /是 自 FALE f ET 
n+m—2 的 :分 布 在 显著 性 水 平 w 上 的 临界 值 。 分 布 可 参见 附 表 B-1 和 文献 Montgomery[ 125] 以 及 
Marascuilo 和 Serlin[ 119] 。 
单 边 检验 备 择 假 设 (Hi: NA >u) : 










Ë ty >tanem—2> WGA Ho 





t- 检 验 的 示例 。 比 较 两 个 项 目 中 不 同 程序 的 缺陷 密度 。 其 中 一 个 项 目的 结果 是 : 
x = 3.42,2.71,2.84,1.85,3.22 ,3. 48,2. 68 ,4. 30 ,2. 49 ,1. 54 
另 一 个 项 目的 结果 是 : 
y = 3.44,4.97,4. 76,4. 96 ,4. 10 ,3. 05 ,4. 09 ,3. 69 ,4. 21 ,4. 40, 3. 49 

原 假 设 为 两 个 项 目的 缺陷 密度 相同 ， 备 择 假 设 为 两 个 项 目 中 缺陷 密度 不 同 。 由 数据 可 
知 , n=10, m=11, x, y 的 均值 分 别 为 x = 2.853 和 Y= 4.1055。 

由 计算 可 以 得 到 : S? =0.6506, S =0.4112, S, =0.7243, to = -3. 96。 

自由 度 f=zm+m -2=10+11-2=19。 通 过 查 表 B-1 可 知 如 osie =2.093。 由 于 
[to | >to. o5 lj9， 可 知 如 果 使 用 双 侧 检验 ， 则 在 显著 性 水 平 0. OS 下 可 以 拒绝 原 假设 。 


10.3.5 Mann-Whitney 检验 


Mann-Whitney 检验 是 一 种 蔡 代 上 -检验 的 非 参数 检验 。 当 不 能 确定 样本 数据 是 否 能 
够 满足 上 检验 的 假设 要 求 时 ， 可 以 使 用 该 检验 来 蔡 代 上 检验 。Mann-Whitney 检验 是 一 
种 基于 序 的 检验 方法 ， 这 里 我 们 没有 完整 地 描述 它 。 更 多 细节 可 以 参见 Siegel 和 Cas- 
tellan[ 157]© 以 及 Marascuilo 和 Serlin[ 119] 等 文献 。 表 10-6 给 出 了 该 检验 的 执行 
步 又。 


表 10-6 Mann-Whitney 检验 





要 上 i 
输入 两 个 独立 样本 : Xis Aza ”9 x, 和 7 ， Fia "y Tie 
Ho 两 个 样本 的 分 布 相同 








对 所 有 样本 进行 排序 并 计算 U = NANVe + 
m), Ng=max(n, m), ， 了 是 小 样本 的 秩 和 


N,(N, +1 
SAAN ra U' =N,N, -U, HP N, = min(n, 





根据 计算 结果 查找 拒绝 原 假设 的 临界 值 表 进 行 判定 。 临 界 值 表 可 参见 表 B-3 BY Marascuilo 和 Ser- 
标准 lin[ 119] 
如 果 min( U, U') 小 于 等 于 B-3 中 的 值 ， 则 拒绝 Ho 





Mann-Whitney 检验 的 示例 。 使 用 上 述 t- 检 验 示 例 中 的 数据 (将 所 有 数据 按 从 小 到 





© Siegel 和 Cestellan[ 157] 中 描述 了 Wilcoxon-Mann-Whitney 检验 而 不 是 Mann-Whitney 检验 。 但 这 两 个 检验 
本 质 上 是 相同 的 。 
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大 顺序 排列 ， 再 使 用 序号 代替 原 有 数据 ) ， 可 以 得 到 N, = min(10,11) =10, Ng = max 
(10,11) =11。 小 样本 (x) 所 对 应 的 秩 为 9、5、6、2、8、11、4、17、3、1， 大 样本 
(y) 所 对 应 的 秩 为 10、21、19、20、15、7、14、13、16、18、12。 根据 秩 可 以 计算 
得 出 T=66, U=99, UV'=11。 由 于 VU 和 UV' 中 的 最 小 值 小 于 26， 由 表 B-3 可 知 ， 对 于 
显著 性 水 平 为 0.05 的 双 侧 检验 而 言 ， 可 以 拒绝 原 假设 。 


10.3.6 F 检 验 


F 检验 是 一 种 用 于 比较 两 个 独立 样本 的 方差 的 参数 检验 。 关 于 下 检验 ， 详 见 Mont- 
gomery[ 125 ] 、Robson[ 144 ] Marascuilo 和 Serlin[ 119] 等 文献 。 表 10-7 给 出 了 下 检验 
的 执行 步骤 。 


表 10-7 F 检验 





Ho ik 


























输入 两 个 独立 样本 : x， may ty te 和 i， yy， 
Hg o2 =o?， 即 两 样本 的 方差 相等 
| max (S2, $) E 
计算 计算 而 = (ge S FEE SS AS, 是 两 个 独立 样本 的 方差 
WHAT PBL (Hy: 02402): Z Fo >F uaan innn o MEK 如。 其 中 mww 指 方差 大 的 
样本 的 数据 个 数 ，nii, 指 方差 小 的 样本 的 数据 个 数 。Fwz .是 自由 度 为 /i A, BEKEN a 
标准 的 下 分 布 的 临界 值 ， 可 以 通过 查 表 B-5 或 文献 Montgomery[ 125] 与 Marascuilo 和 Serlin[119] 等 


获得 


单 边 检验 备 择 假设 (H: o>): 车 Fo >F。 并 且 S >S, WTA Ho 





max 一 1ynmin 一 1 


五 检验 的 示例 。 同 样 使 用 上 述 t- 检 验 中 示例 的 数据 ， 可 知 两 组 数据 的 方差 分 别 为 
S, =0. 6506, S, =0.4112， 即 由 计算 得 Fo =1.58, nag =10, nmin =11。 

HÆK B-5 可 知 ，Fo 0z5,9.10 =3. 78。 由 于 Fo < Fo.02s.9,10， 因 此 使 用 显著 性 水 平 为 
0. 05 的 双 侧 检验 无 法 拒绝 原 假设 。 也 就 是 说 ,该 检验 无 法 拒绝 “这 两 个 样本 具有 相同 
的 方差 ”的 原 假设 。 


10.3.7 配对 t- 检 验 


配对 tt- 检验 主要 用 于 比较 从 重复 度量 中 获得 的 两 个 样本 。 这 意味 着 在 实验 中 对 于 
一 个 实验 主体 进行 了 多 次 度量 。 例 如 ， 假 如 需要 比较 两 种 工具 的 性 能 ， 如 果 使 用 两 个 
组 独立 地 使 用 这 两 种 不 同 的 工具 ， 那 么 产生 的 结果 将 会 是 两 个 独立 样本 ， 从 而 可 以 使 
用 普通 上 检验 进行 检验 。 相 反 ， 如 果实 验 主体 仅 为 一 个 组 ， 同 时 要 求 组 内 的 每 一 个 人 
都 要 使 用 这 两 种 工具 进行 实验 ， 那么 ， 这 就 意味 着 需要 重复 度量 。 此 时 ,可 以 利用 配 
对 tt 检验 检 验 每 个 人 使 用 不 同 工 具 的 性 能 差异 。 

Montgomery[ 125 ] Marascuilo 和 Serlin[ 119] 等 对 本 检验 进行 了 更 加 详尽 的 描述 。 
检验 的 执行 步 又 参见 表 10-8。 
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3210-8 配对 t- 检 验 





Hie Ok 
成 对 样本 : 人 Vic) 























Ho La =0， 其 中 d; =x; --y;， 即 成 对 样本 间 差 异 的 期 望 均值 为 0 
、 Eri (d; -d)? 
tA 计算 w= 一 4 一 Sn ts a 
: HEr San) HP Sa n-l 
双边 检验 备 择 假设 (Hy: pu#¥0): a | ly | pg ， 则 拒绝 Ayo 这 里 ， ty pe A 由 度 为 人 显著 
标准 性 水 平 为 a 的 上 分 布 的 临界 值 。 该 临界 值 可 以 通过 查找 表 B-1 或 文献 Montgomery[125] 以 及 Maras- 


cuilo 和 Serlin[ 119] 等 得 到 
单 边 检验 备 择 假设 (A, jy >0): Hl ty [Saw ， 则 拒绝 Ho 


配对 t- 检 验 的 示例 。 十 个 程序 员 独 立地 开发 了 两 个 不 同 的 程序 。 他 们 记录 了 开发 
程序 所 需要 的 工作 量 ， 如 表 10-9 所 示 。 


表 10-9 所 需 的 工作 量 











原 假设 是 开发 程序 1 所 需 的 工作 量 和 开发 程序 2 所 需 的 工作 量 是 相同 的 。 备 择 假 
设 是 两 者 工作 量 不 一 样 。 为 了 执行 检验 ， 需 要 进行 以 下 计算 : 
d = {18.9,22, -51,16.1, - 23,30,15, - 19,32.7, - 8} 
S4 = 27.358 
ty = 0.39 
自由 度 f=n -1=10 -1=9。 由 查 表 B-1 可 知 ty 0s 9 =2. 262. 
由 于 加 <tn os 9。， 因 此 显著 性 水 平 为 0. OS 的 双 侧 检验 表明 无 法 拒绝 原 假设 。 


10. 3.8 Wilcoxon 检验 


Wilcoxon 检验 是 一 种 可 以 替代 配对 上 检验 的 非 参 数 检验 。 使 用 这 个 检验 的 唯一 需 
求 是 需要 能 够 确定 哪 一 对 样本 值 间 的 差异 是 最 大 的 ， 即 能 够 对 差异 的 大 小 进行 排序 。 
该 检验 是 基于 秩 的 ， 具 体 细节 不 在 此 讨论 。 如 需 了 解 详情 ， 请 参见 Siegel 和 Castellan 
[157] 以 及 Marascuilo 和 Serlin[ 119] 等 文献 。 表 10-10 对 这 种 检验 进行 了 总 结 。 


表 10-10 Wilcoxon 检验 







描 g 
成 对 样本 s: (x ,71) s C2 ,72 ) 77 (Hn In) 

在 不 考虑 符号 的 情况 下 对 所 有 偏差 (Cd; =x; -y;) 进行 排序 (1，2，3，…) ,那么 ， 所 有 正 偏差 
的 秩 和 等 于 所 有 人 负 偏 差 的 秩 和 
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( 续 ) 








描 B 
计算 所 有 正 偏差 的 秩 和 d;: s, WAT; 计算 所 有 人 负 偏差 的 秩 和 d;: s, WH T 
EFT, T 以 及 数据 对 的 数量 n， 通 过 查 表 来 判断 是 否 拒 绝 Ho。 例 如， 根据 对 照 表 B-4， 若 
min (T+, T) 小 于 等 于 表 B-4 中 的 值 ， 则 拒绝 Hoo tA] BAS SCHR Siegel 和 Castellan[ 157] 以 及 
Marascuilo 和 Serlin[ 119] 中 的 对 照 表 











标准 


Wilcoxon 检验 的 示例 。 使 用 上 述 配对 上 检验 示例 中 的 数据 ， 可 以 得 到 差异 (d) 的 
绝对 值 的 等 级 排列 是 4, 6, 10, 3, 7, 8, 2, 5，9，1。 基 于 此 ， 能 够 计算 出 7” 和 
T- 分 别 是 32 和 23。 

由 于 7 和 了 7- 的 最 小 值 都 大 于 8 ( 见 表 B-4)， 因 此 ,使 用 显著 性 水 平 为 0.05 的 双 
侧 检验 无 法 拒绝 原 假设 。 


10.3.9 符号 检验 


符号 检验 和 Wilcoxon 检验 一 样 ， 也 是 一 种 可 用 于 替换 配对 上 检验 的 非 参数 检验 。 
由 于 符号 检验 只 需要 利用 每 个 配对 中 值 的 差异 的 符号 进行 计算 ， 因 此 当 不 可 能 或 者 不 
需要 对 差异 大 小 进行 排序 时 ， 可 以 使 用 符号 检验 来 替代 Wilcoxon 检验 。 例 如 ， 当 采用 
符号 检验 就 能 显示 出 显著 性 的 时 候 ， 就 没 必要 使 用 Wilcoxon 检验 了 。 这 是 因为 符号 检 
验 效能 更 低 ， 也 更 容易 执行 。 

符号 检验 在 Siegel Fil Castellan[ 157] 以 及 Robson[ 144] 等 人 的 文章 中 有 更 为 深入 
的 描述 。 表 10-11 对 符号 检验 进行 了 总 结 。 


表 10-11 符号 检验 
项 H 描 述 
输入 | 成 对 样本 : (ayi), i292) ra Cna) 
P( +) =P( -)， 其 中 + 和 -分 别 表示 事件 >y 和 < 
用 一 个 “+ ”表示 每 一 个 正 偏差 〈(d =%; - 入) ， 同 时 用 一 个 “ - ”表示 每 一 个 负 偏差 。 计 算 




















p = Ard (Ù) ,其 中 w 为 符号 总 数 ，" 为 数量 最 少 的 符号 的 数量 
1=0 Ll 








双边 检验 备 择 假设 (H: P(+)#P(-)): Ap<a/2, WEH Ho 
PU BEBE (H: P( +) <P(-)): 若 p<a 并 且 ”" +” 事件 是 样本 中 少数 事件 ， 则 拒 
#8 Ho 


标准 


读者 可 能 注意 到 符号 检验 是 一 种 二 项 式 检 验 ， 其 中 的 事件 有 两 种 :“+” 和 “一 ”。 
符号 检验 的 示例 。 使 用 上 述 配 对 二 检验 示例 中 的 数据 ， 可 知 有 6 个 正 偏差 和 4 个 
负 偏 差 。 这 意味 着 : 
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由 于 bp >0.025， 因 此 用 显著 性 水 平 为 0. 05 的 双 侧 检验 无 法 拒绝 原 假设 。 


10. 3. 10 ”方差 分 析 

方差 分 析 (ANalysis Of VAriance, ANOVA) 能 够 用 于 分 析 多 种 不 同 设计 的 实验 。 
使 用 “方差 分 析 ” 这 个 名 字 是 因为 它 关 注 于 数据 的 总 体 变化 以 及 不 同类 别 的 各 个 分 组 
数据 的 变化 。 例 如 ， 可 以 通过 ANOVA 检验 “ 因 处 置 不 同 产生 的 变化 ”与 “ 因 随 机 误 
差 产生 的 变化 ”之 间 是 否 具有 差异 。 

本 节 描 述 了 在 最 简 情形 下 如 何 使 用 方差 分 析 ， 即 用 方差 分 析 比 较 一 些 样 本 是 否 具 
有 相同 的 均值 。 这 也 意味 着 ,实验 采用 单 因 子 多 处 置 (大 于 2) 设计 。 表 10- 12 对 
ANOVA 进行 了 总 结 。 


表 10-12 针对 单 因子 多 处 置 (大 于 2) 设计 的 方差 分 析 














项 目 描 Ok 
输入 a 个 样本 : Xils Mas 's Xing? Ka N22 Nn? 3 Kals Xa2s s Xang 
Ho May = Pay =… = ， 也 就 是 说 ， 所 有 期 望 的 均值 是 相等 的 








SS treatment = » = 四 N 


SS grror i= SS7 SS Treatment 

MS treatment = SS Treatment” (a = 1) 

MMS = SS tipror/(N - a) 

Fo = MS treatment” MS Error 

其 中 入 是 所 有 样本 数据 的 总 数 ， 一 个 点 表示 遍历 该 点 所 代表 的 所 有 索引 求 和 ， 例 如 , x, = 2》 xy 
了 


计算 








如 果 Fo > Faai- WIE Hoo KB, Fay, ,jp 表 示 自 由 度 为 hh 和 所 、 显 著 性 水 平 为 a 的 下 分 
标准 布 的 临界 值 。 可 以 通过 查 表 B-5 和 文献 Montgomery[125] 以 及 Marascuilo 和 Serlin[ 119] 等 来 获得 
临界 值 





ANOVA 检验 的 结果 往往 通过 方差 分 析 表 展示 。 例 如 ， 一 个 单 因子 多 处 置 的 ANO- 
VA 检验 的 结果 如 表 10-13 所 示 。 


表 10-13 表 10-12 描述 的 ANOVA 检验 的 方差 分 析 表 
变化 来 源 平 方 和 自 由 度 均 方 差 Fo 










处 置 间 SS treatment a-1 MS treatment Fy = MS pro 





M. S Error 






SS Error 
SS7 


误差 ' 














1 有 时 标记 为 “处 置 内 ”。 
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需要 注意 的 是 ， 上 述 ANOVA 检验 仅仅 是 ANOVA 检验 的 一 种 变 体 。 方 差分 析 能 够 
用 于 不 同 因素 、 不 同 分 块 变量 的 多 种 不 同 的 设计 。 限 于 篇 幅 ， 不 在 此 对 这 些 检验 方式 
进行 详细 描述 。 更 多 详细 信息 可 以 参阅 Montgomery[ 125 ] Marascuilo 和 Serling[ 119 ] 
等 文献 。 
方差 分 析 的 示例 。 对 三 个 不 同 程序 的 模块 大 小 进行 测量 后 ， 得 到 如 下 数据 : 
程序 1: 221,159 ,191 ,194,156 ,238 ,220 ,197 ,197 ,194 
程序 2: 173 ,171 ,168 ,286 ,206 ,140 ,226 ,248 ,189 ,208 ,213 
程序 3: 234,188 ,181 ,207 ,266 ,153 ,190 ,195 ,181 ,238 ,191 ,260 
原 假 设 是 “三 个 程序 中 模块 大 小 的 均值 相等 ”， 备 择 假 设 是 其 均值 不 相等 。 基 于 
上 述 数 据 ， 计 算得 到 如 表 10-14 所 示 的 方差 分 析 表 。 


表 10-14 方差 分 析 表 








均 方差 
289. 5258 






平方 和 
579. 0515 
36 151 

















An A =a -1=3 -1=2, f =N-a=33 -3=30， 查 表 B-5 可 得 Fy 0s 2 30 = 
4. 18。 由 于 Fo < Fo 0zs,230， 所 以 在 显著 性 水 平 为 0.025 时 不 能 拒绝 原 假设 。 


10. 3. 11 Kruskal-Wallis 检验 


Kruskal-Wallis 检验 是 一 种 基于 序 的 方差 分 析 方 法 。 它 是 一 种 可 以 用 于 替代 上 述 单 
因子 方差 分 析 的 非 参 数 检验 方法 。 如 果 不 能 保证 满足 参数 检验 ANOVA 的 假设 ， 则 可 
以 用 这 种 方法 来 替代 。 本 节 不 会 具体 描述 这 种 基于 序 的 检验 方法 ， 有 兴趣 请 参见 Siegel 
和 Castellan[ 157] 以 及 Marascuilo 和 Serlin[ 119] 等 文章 。 

表 10-15 对 这 种 检验 进行 了 总 结 。 


表 10-15 Kruskal-Wallis 检验 
项 E Ho $ 














输入 a 个 样本 : X, Z, °°, Xini Xas Xas s Xrngi on 

Hy a 个 样本 的 中 位 数 相等 

计算 对 所 有 样本 值 进行 排序 (1，2，…，m +m +… +n。)， 根 据 该 序 ， 计 算 每 个 样本 的 中 位 数 ， 参 
见 文 [119, 157] 中 的 示例 

标准 参见 诸如 Siegel 和 Castellan[ 157] 以 及 Marascuilo 和 Serlin[ 119] 等 文献 


10.3.12 卡 方 检验 
卡 方 检验 (有 时 表示 为 检验 ) 能 够 以 各 种 不 同方 式 执行 。 但 所 有 的 卡 方 检验 检 
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验 的 数据 都 是 频率 数据 。 例 如 ， 有 两 个 系统 ， 每 个 系统 均 由 很 多 模块 构成 。 系 统 1 有 
15 个 小 模块 、20 个 中 等 模块 和 25 个 大 模块 ; 系统 2 有 10 个 小 模块 、19 个 中 等 模块 和 
28 个 大 模块 ， 如 表 10-16 所 示 。 


表 10-16 两 个 系统 ( 群 组 ) 的 模块 大 小 (变量) 的 频率 表 














模块 大 小 A 统 1 系 统 2 
小 | 15 | 10 
中 | 20 | 19 
大 25 28 


在 本 案例 中 ， 将 通过 卡 方 检验 判断 两 个 系统 中 小 模块 、 中 等 模块 和 大 模块 的 分 布 
是 否 相 同 。 

卡 方 检验 也 能 够 针对 一 组 数据 进行 检验 ， 判 定 该 频率 分 布 是 否 与 理论 分 布 相同 。 
例如 ,利用 卡 方 检验 检查 样本 是 否 符合 正 态 分 布 。 

卡 方 检验 用 于 判定 两 组 或 者 多 组 的 度量 值 是 否 来 自 于 同一 个 分 布 ， 其 总 结 如 表 10- 
17 所 示 。 


表 10-17 卡 方 检验 , 个 独立 样本 (组 ) 























项 目 描 述 
输入 大 组 频率 数据 
Hy 组 数据 源 于 同一 个 分 布 
计算 创建 一 个 列 联 表 。 对 于 一 个 由 包含 三 种 变量 取 值 的 两 组 数据 构成 的 示例 〈 即 与 表 10-16 中 的 数 
据 维度 相同 ) 创建 如 下 所 示 的 列 联 表 : 
组 ] 组 2 合计 
1 ny niz R; 
2 na Ny R, 
3 nai N32 R, 
总 计 Ci C, N 
其 中 ,nj 代表 组 7 中 变量 取 值 为 i 时 出 现 的 频率 ，C; 代表 组 i 中 所 有 变量 取 值 出 现 的 频率 总 数 ， 
R; ss cg i pagers 总 数 。N 代表 所 有 频率 的 总 数 





Ey) 





HAX = Sy 
i=l j= 
为 群 组 数 














表示 Hy 为 真 时 的 期 望 频率 ) , r WEEK, k 





EX >ya, NJEM Hoo HPAES = (r-1) (k-1), 双 y 是 自由 度 为 /、 显 著 性 水 平 为 a 的 


标准 
卡 方 分 布 临界 值 ， 可 通过 查 表 B-2 或 Siegel 和 Castellan 的 文献 [157] 获得 


卡 方 检验 的 示例 。 如 果 使 用 卡 方 检 验 检验 表 10-16 中 的 数据 ， 可 以 构建 表 10-18。 
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表 10-18 卡 方 检验 的 计算 结果 ( 期望值 E; 列 在 括号 内 ) 





模块 大 小 系统 1 系 统 2 

































小 15 (12. 8205) 10 (12. 1795) R, =25 
中 20 (20) 19 (19) R, =39 
25 (27.1795) 28 (25.8205) R, =53 

















C, =60 





C, =57 





原 假设 是 两 个 系统 的 模块 大 小 的 分 布 相同 ， 备 择 假 设 是 该 分 布 不 同 。 基 于 这 些 数 
据 ， 我 们 可 以 计算 出 检验 统计 量 为 玫 = 1.12, ABE (7-1) (k-1) =2x1=2, Æ 
K B-2 可 知 , X6.05,2 =5-990 AFX <x6.05,2， 因 此 ， 在 显著 性 水 平 为 0.05 时 无 法 拒绝 
原 假设 。 

卡 方 拟 合 度 检验 。 卡 方 检验 也 能 用 来 检验 度量 值 是 否 符合 某 特定 分 布 ， 如 正 态 分 
布 。 对 本 例 而 言 ， 其 拟 合 度 检验 步骤 如 表 10-19 所 示 。 


R 10-19 卡 方 拟 合 度 检验 








项 B 描述 

üi 一 组 频率 类 数据 (EO, ，0 ，…，0,, 其 中 o; 代表 在 分 类 i 中 被 观测 对 象 的 出 现 次 数 ) ， 与 表 
10-2 类 似 

Ho 度量 值 服 从 某 特 定 分 布 





n es i 2 
MO, 其 中 E; 是 在 H 为 真 时 分 类 i 中 期 望 的 观察 次 数 , 是 分 类 的 数量 


计算 | 计算 中 = 这 


t= 





BX > 礁 y， 则 拒绝 Hy. HPA HE f=n-e-1 且 。 为 根据 源 数据 估计 的 参数 个 数 。x?2 EAH 
标准 度 为 /、 显 著 性 水 平 为 a 的 卡 方 分 布 的 临界 值 。 其 值 可 通过 查 表 B-2 或 文献 Siegel 和 Castellan[ 157 ] 
获得 。 本 检验 是 个 单 侧 检 验 





如 果 需 要 针对 一 个 连续 分 布 进行 拟 合 度 检验 ， 那 么 必须 将 数据 划分 到 各 个 区 间 内 ， 
使 得 每 个 区 间 可 以 代表 一 个 值 。 以 正 态 分 布 为 例 ， 分 析 如 下 。 

假如 Hy 的 分 布 是 已 知 的 (例如 ,P(X=1) =2/3, P(X=2) =1/3)， 那 么 ， 就 没 
有 必要 从 测量 数据 中 估计 参数 (此 时 。=0) 。 另 一 方面 ， 如 果 原 假设 仅仅 声明 其 值 服 
从 正 态 分 布 ， 那么 就 必须 估计 两 个 参数 一 一 正 态 分 布 的 均值 和 标准 差 ， 否 则 就 不 可 能 
确定 出 不 同 区 间 的 期 望 值 5;。 因 此 ， 在 本 例 中 ，e =2。 

示例 : 正 态 分 布 的 卡 方 拟 合 度 检验 。60 个 学 生 开 发 同样 的 程序 ， 其 开发 的 程序 代 
码 行 数 如 表 10-20 所 示 。 


表 10-20 程序 规模 


757 758 892 734 800 979 938 866 690 877 773 778 
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原 假设 是 数据 呈正 态 分 布 ， 备 择 假设 是 数据 不 服从 正 态 分 布 。 由 数据 分 析 可 以 计 
算出 其 均值 和 标准 差分 别 为 x =794. 9833, s =83.9751。 

如 果 数 据 确实 服从 均值 为 x、 标 准 差 为 ;的 正 态 分 布 ， 那么 ， 可 以 将 分 布 的 值 域 划 
DRAGER ( 子 区 域 )， 使 得 每 段 包含 的 值 的 概率 相同 。 在 此 例 中 ,将 整个 值 域 划 分 
为 10 段 。 为 了 找到 第 一 个 分 段 的 上 限 (x) ， 必 须 求解 下 面 的 等 式 : 

P(X < x) = 1/10 
其 中 服从 正 态 分 布 W (* ，s) ,根据 标准 正 态 分 布 定义 可 知 ， 相 当 于 求解 : 
P(X, < (x -%)/s) = 1/10 
Hp X, 服从 标准 正 态 分 布 Y(0，1)， 这 也 等 同 于 求解 : 


P(X, <z) = | 
Et X, 服从 标准 正 态 分 布 N(0, 1) 且 x=sz+xo 
这 些 等 式 能 够 使 用 多 种 不 同方 式 求解 。 其 中 一 种 方法 是 迭代 ， 利 用 计算 机 帮助 求 
解 z 和 x; 男 一 种 方法 是 使 用 标准 正 态 分 布 表 ( 表 中 罗列 了 不 同 的 z 值 所 对 应 的 p(X, < 
z) ) ， 这 种 表格 在 大 多 数 统计 学 书籍 中 都 有 ; 也 可 以 使 用 一 种 能 够 直接 显示 分 段 临 界 值 
( 即 z 值 ) 的 专用 表格 ， 可 参见 Humphrey[82] 。 
K 10-21 展示 了 分 段 临界 值 和 实际 落 和 每 个 分 段 的 值 的 数量 。 


1 





e(-7)M2dy = 1/10 
T 


R 10-21 分 段 
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每 个 分 段 中 数值 个 数 的 期 望 值 E; X 60/10 =6。 这 意味 着 卡 方 值 Y =7.3。 自 由 度 
是 10 -2 -1=7。 由 表 B-2 ATG 95,7 =14.07。 由 于 至 < 娩 os2， 所 以 在 显著 性 水 平 为 
0. 05 时 无 法 拒绝 原 假 设 。 如 果 观 察 根 据 该 数据 所 做 的 直方 图 ( 见 图 10-10) ,不 难看 出 
其 确实 非常 像 正 态 分 布 。 





值 的 个 数 








图 10-10 直方 图 


卡 方 检验 的 结束 语 。 卡 方 检验 是 基于 某 种 确定 性 假设 而 设计 的 ， 一般 当 期 望 值 6; 
不 太 小 时 可 以 使 用 。 使 用 时 必须 遵循 的 经 验 法 则 是 : 如 果 自 由 度 f 等 于 1 且 有 任何 期 
望 频率 小 于 5 时 ， 不 可 使 用 卡 方 检验 ; 如 果 f>1 且 超 过 20% 的 期 望 频率 小 于 5 或 者 有 
任何 的 期 望 频数 小 于 1， 也 不 可 以 使 用 卡 方 检验 。 值 得 注意 的 是 ， 有 时 候 尽 管 期 望 频 
率 不 满足 要 求 ， 也 使 用 了 本 检验 。 但 在 这 样 的 情况 下 ， 将 存在 计算 风险 。 

一 种 获得 更 高 的 期 望 频率 的 方法 是 把 相关 的 类 别 合并 成 新 的 类 别 。 但 合并 得 到 的 
新 类 别 必 须 是 有 意义 的 。 更 多 关于 卡 方 检验 的 信息 可 以 参考 Siegel 和 Castellan[ 157 ] 
的 文章 。 


10.3.13 ”模型 充分 性 检查 


每 个 统计 模型 都 依赖 于 某 种 特定 的 假设 ,例如 分 布 、 独 立 性 和 尺度 等 。 如 果 数 据 
集 不 能 满足 前 提 假 设 ， 那 么 假设 检验 的 结果 也 是 无 效 的 。 因 此 ， 检 查 所 有 的 假设 是 否 
都 能 被 满足 是 至 关 重 要 的 。 

模型 充分 性 检查 依赖 于 以 下 三 个 前 提 假 设 : 

(1) 正 态 性 : 如 果 某 种 检验 需要 数据 符合 正 态 分 布 ， 可 以 使 用 卡 方 检验 评估 数据 
能 多 大 程度 满足 该 假设 。 卡 方 检验 已 经 在 上 文中 描述 过 。 

(2) 独立 性 : 如 果 检 验 要 求 数据 来 自 于 一 个 有 若干 独立 随机 变量 的 样本 ， 那 么 ， 
必须 检查 样本 集 之 间 不 存在 相关 性 。 这 可 以 用 散 点 图 和 计算 相关 系数 的 方法 来 检查 。 
相关 方法 在 本 节 开 始 已 有 介绍 。 

G) RÉ: 在 许多 统计 模型 里 ， 有 一 个 术语 表示 残 差 〈 统 计 误 差 ) 。 通 常 假设 残 
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差 服 从 正 态 分 布 。 校 验 这 种 性 质 的 通常 做 法 是 将 残 差 绘制 在 散 点 图 里 查看 数据 是 否 不 
存在 某 种 特定 的 趋势 〈 分 布 看 上 去 是 随机 的 ) 。 


10. 3. 14 推导 结论 


分 析 和 解释 实验 数据 之 后 ， 我 们 需要 根据 实验 输出 得 出 结论 。 如 果 假 设 被 拒绝 ， 
在 实验 有 效 的 前 提 下 ， 我们 可 以 得 出 关于 独立 变量 如 何 影响 非 独 立 变 量 的 结论 ， 如 第 
8 章 所 述 。 

另 一 方面 ， 如 果实 验 不 能 拒绝 原 假设 ， 就 无 法 得 出 任何 关于 独立 变量 影响 非 独 立 
变量 的 结论 。 此 时 ， 我 们 唯一 能 够 给 出 的 解释 是 在 两 个 处 置 之 间 不 存在 统计 意义 上 的 
显著 差异 。 

如 果 能 够 得 到 具有 统计 意义 的 显著 差异 ， 我 们 就 会 希望 得 出 关于 独立 变量 和 非 独 
立 变 量 之 间 关 系 的 通用 结论 。 在 达成 这 个 目标 之 前 ,我 们 需要 考虑 实验 的 外 部 有 效 性 ， 
如 第 8 章 所 述 。 我 们 只 能 将 结果 推广 到 跟 实验 环境 类 似 的 环境 中 。 

尽管 实验 结果 可 能 在 统计 意义 上 是 显著 的 ， 但 并 不 意味 着 实验 结果 就 一 定 具有 实 
际 意 义 。 例 如 ， 证 明了 方法 X 比方 法 Y 的 成 本 效益 高 2% 具有 很 高 的 统计 显著 性 ,但 
用 方法 X 替换 方法 Y 可 能 并 不 划算 。 也 就 是 说 ， 必 须 研究 不 同 处 置 观察 到 的 效果 大 小 
并 且 基 于 此 来 得 出 结论 和 提出 建议 。Kampenes[92] 等 人 给 出 了 关于 不 同 效果 大 小 概 
念 的 综述 ， 并 且 写 了 一 篇 关于 如 何 处 理 这 个 问题 的 系统 综述 。 

反之 亦 然 ， 尽管 实验 结果 可 能 在 统计 意义 上 不 显著 或 者 只 有 很 低 的 统计 显著 性 ， 
我 们 仍 有 可 能 从 实验 中 获得 有 重要 实际 意义 的 结论 。 在 某 个 显著 性 水 平 下 无 法 拒绝 原 
假设 并 不 意味 着 原 假 设 就 是 真 的 。 可 能 在 实验 设计 中 存在 一 些 问题 ， 例 如 存在 一 些 对 
有 效 性 的 真实 威胁 或 者 数据 样本 太 少 的 情况 。 此 外 ， 根 据 情况 和 研究 目的 ， 我 们 可 以 
由 于 实验 结果 具有 很 高 的 现实 意义 而 设 定 一 个 更 低 的 统计 显著 性 水 平 。 这 个 问题 与 
8.9 节 中 关于 有 效 性 威胁 的 讨论 是 相关 的 。 

当 发 现 变量 A 和 变量 B 之 间 是 显著 相关 的 时 候 ， 通 常 我 们 也 不 能 得 出 A 和 B 之 间 
存在 着 因果 关系 的 结论 。 因 为 可 能 存在 着 第 三 个 因素 C， 造 成 了 A 和 B 的 关联 。 

基于 实验 输出 得 出 的 结论 是 一 个 决策 的 输入 ， 比 如 ， 将 一 种 新 方法 应 用 于 今后 的 
项 目 或 者 还 需要 进一步 的 实验 来 验证 该 方法 。 

需要 注意 的 是 使 用 假设 检验 也 有 一 些 弊 端 。 如 Miller[ 122] 指出 的 那样 ， 如 果 能 
够 提供 足够 多 的 数据 ， 大 多 数 情况 下 都 可 以 找到 一 种 能 够 被 拒绝 的 原 假 设 的 表述 方式 。 
但 实际 上 我 们 很 难 获得 一 个 能 代表 总 体 的 样本 ， 例 如 世界 上 所 有 的 软件 工程 师 。 应 当 
谨慎 地 基于 实验 结果 采取 某 种 措施 ， 并 且 应 该 把 实验 结果 仅 看 作 决 策 过 程 的 一 个 因素 。 


10.4 示例 分 析 


本 示例 是 9. 4 节 中 示例 的 延续 。 基 于 实验 获得 的 数据 ， 首 先 应 用 描述 性 统计 分 析 
数据 ， 如 绘制 数据 分 析 图 表 。 采 用 不 同 尺 度 获得 的 数据 应 该 使 用 不 同 的 统计 方法 分 析 ， 
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详 见 10.1 节 。 其 中 一 种 常用 的 数据 图 表 绘 制 方法 是 箱 形 图 。 箱 形 图 能 清晰 地 展示 数据 
的 概况 、 确 定 离 群 点 。 如 果 识 别 出 一 个 离 群 点 ， 了 解 是 否 有 导致 其 出 现 的 底层 原因 非 
常 重 要 。 例 如， 可 能 有 一 个 或 者 少数 实验 主体 和 其 他 实验 主体 的 背景 不 同 ， 因 此 ， 必 
须 确保 他 们 的 数据 与 其 他 主体 的 数据 是 可 比 的。 如 果 只 有 一 组 数据 受到 影响 ， 这 就 更 
加 重要 。 一 般 而 言 ， 我 们 应 该 谨慎 对 待 数据 点 的 移 除 ， 即 任何 的 数据 移 除 都 应 该 是 目 
标明 确 和 记录 在 案 的 。 

一 旦 确定 了 在 数据 分 析 中 应 该 包括 哪些 数据 ， 就 应 该 考虑 统计 分 析 了。 关于 不 同 
统计 方法 的 使 用 条 件 、 什 么 时 候 应 该 用 参数 检验 、 什 么 时 候 应 该 用 非 参数 检验 ， 人 们 
总 是 有 许多 不 同 的 观点 ， 因 此 ， 统 计 分 析 方 法 的 选择 常常 充满 挑战 。 

首先 应 该 检查 数据 是 否 服从 正 态 分 布 ， 例 如 ， 通 过 绘制 直方 图 ( 见 图 10-5) 或 者 
使 用 10. 3. 12 节 中 描述 的 卡 方 检 验 ， 或 者 使 用 其 他 候选 检验 方法 进行 判定 ， 比 如 Kol- 
mogorov-Smirnov 检验 、Shapiro-Wilks 的 W 检验 、Anderson-Darling 检验 。 然 而 ， 在 样本 
量 很 小 时 ， 很 可 能 数据 本 来 不 服从 正 态 分 布 ， 但 看 起 来 却 是 呈正 态 分 布 的 ， 并 且 正 态 
性 检验 可 能 由 于 数据 点 太 少 而 并 没有 检测 出 来 。 此 时 ， 某 些 参数 检验 比 其 他 检验 方法 
鲁 棒 性 更 强 。 例 如 ，t- 检 验 对 于 非 正 态 性 相当 和 鲁 棒 ， 而 方差 分 析 则 不 行 。 简 而 言 之 ， 
最 好 在 分 析 前 调查 数据 是 否 符合 正 态 分 布 。 

对 双 因 素 (阅读 技术 和 需求 文档 )、 每 个 因素 双 处 置 的 设计 而 言 ， 尤 其 需要 数据 
服从 正 态 分 布 。 当 数据 服从 正 态 分 布 时 才能 使 用 方差 分 析 来 检验 。 如 果 数 据 不 服从 正 
态 分布 ， 那么 就 会 面临 一 个 问题 没有 非 参 数 检 验方 法 能 够 分 析 这 种 设计 类 型 ， 如 
表 10-3 所 示 。 如 果 只 是 单 因子 双 处 置 设计 ， 那么 ， 可 以 使 用 非 参 数 检 验方 法 替代 。 因 
此 ， 即 使 有 一 些 更 简单 的 设计 看 起 来 非常 适合 、 用 起 来 也 非常 方便 ,但 实际 上 使 用 这 
种 类 型 的 设计 可 能 并 不 是 一 个 好 的 选择 。 因 为 使 用 该 设计 虽然 获得 了 更 多 的 数据 点 ， 
但 可 能 会 给 统计 分 析 带 来 挑战 。 因 此 ， 当 我 们 选择 实验 设计 时 ， 尤 其 要 考虑 后 果 。 这 
种 设计 类 型 有 时 候 会 涉及 交叉 设计 ， 例 如 ， 主 体 先 使 用 或 知晓 了 一 个 处 置 ， 然 后 再 让 
他 们 使 用 或 知晓 第 二 个 处 置 。 此 时 需要 对 一 些 挑战 进行 探讨 ， 比 如 是 否 能 够 只 考虑 一 
个 因素 〈 如 阅读 技术 ) 。 然 而 ， 在 两 次 审查 时 使 用 同一 个 需求 文档 是 不 现实 的 ， 除 非 
两 次 审查 之 间 间 隔 了 一 段 很 长 的 时 间 。Kitchenham A [99] 提出 了 一 些 针 对 交叉 设 
计 的 统计 方面 的 挑战 。 文 中 指出 ， 尽 管 其 他 人 不 推荐 在 软件 工程 领域 使 用 交叉 设计 ， 
但 如 果 不 使 用 交叉 设计 ， 就 可 能 导致 实践 每 个 处 置 的 主体 太 少 ， 因 此 ， 在 软件 工程 领 
域 ， 权 衡 这 两 种 处 置 的 利弊 ， 往 往 也 会 选择 使 用 交叉 设计 [99]. 

如 果 假 设 数据 服从 正 态 分 布 ， 那 么 可 以 使 用 方差 分 析 来 检验 。 但 此 时 仍然 存在 一 
个 挑战 : 即使 方差 分 析 得 出 了 显著 的 结果 ， 我 们 仍然 不 知道 哪 种 差异 是 显著 的 。 为 了 
解决 这 个 问题 ， 必 须 在 方差 分 析 后 进行 一 些 其 他 检验 ， 例 如 Fisher 提出 的 PLSD (Pro- 
tected Least Significant Difference) 检验 [125 ] PLSD 检验 要 求 数据 必须 通过 方差 分 析 
得 到 具有 显著 性 差异 的 结果 ， 即 它 受 显著 的 方差 分 析 结 果 的 保护 。Fisher 的 PLSD 检验 
可 用 于 均值 的 成 对 比较 。 同 样 ， 它 也 会 面临 实验 设计 所 带 来 一 些 统计 意义 上 的 挑战 。 


[151] 


118 PERD TIRK HK 








因此 ， 需 要 使 实验 设计 尽量 简单 ， 从 而 能 够 进行 正确 的 统计 分 析 。 

如 果 我 们 选择 将 实验 主体 分 成 两 组 ， 要 求 他 们 对 同一 份 需求 文档 应 用 PBR 或 CBR 
方法 进行 审查 ,那么 ， 此 种 设计 即 为 单 因 子 双 处 置 设计 。 这 意味 着 接 下 来 可 以 根据 正 
态 性 检验 的 结果 来 决定 使 用 上 检验 或 是 Mann-Whitney 检验 。 但 另 一 方面 ， 这 种 实验 设 
计 使 得 我 们 无 法 分 析出 实验 主体 和 处 置 之 间 的 相互 作用 。 因 此 ， 这 种 实验 设计 的 优 劣 
取决 于 个 案 的 实验 目的 ， 同 时 也 依赖 于 实验 主体 的 数目 和 识别 的 有 效 性 威胁 。 


10.5 练习 


10.1 什么 是 描述 性 统计 ? 描述 性 统计 有 什么 用 途 ? 

10.2 分 别 解 释 什 么 是 参数 检验 和 非 参 数 检验 ， 它 们 能 在 什么 时 候 使 用 ? 
10.3 ”什么 是 检验 的 效能 ? 

10.4 什么 是 成 对 比较 ? 

10.5 简要 解释 ANOVA 检验 。 
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当 一 个 实验 完成 后 ， 其 结果 可 能 会 按照 图 11-1 中 定义 的 那样 提交 给 不 同 的 受众 。 
通常 有 以 下 几 种 做 法 : 在 会 议 或 者 期 刊 上 发 表 一 篇 文章 ， 或 为 决策 者 提供 一 份 报告 ， 
也 可 以 打包 为 重复 实验 服务 或 作为 教学 材料 。 打 包 也 可 以 在 公司 内 部 进行 ， 以 改进 和 
理解 不 同 的 过 程 。 在 本 案例 中 ， 根 据 文献 [16] 中 Basili 等 人 提出 的 概念 ， 最 好 能 将 
实验 经 验 记 录 到 经 验 库 中 。 但 本 书 主要 关注 用 会 议 或 期 刊 中 学 术 报告 的 形式 来 记录 。 
如 果 由 于 篇 幅 限制 在 会 议 或 期 刊 中 无 法 报告 实验 的 所 有 细节 ， 那 么 ， 建 议 同时 发 布 一 


个 完整 的 技术 报告 。 
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图 11-1 归档 与 展示 过 程 概 览 


Jedlitschka 和 Pfahl 提出 了 一 种 撰写 实验 学 术 报 告 的 模式 [86] ，Kitchenham 等 人 对 
其 进行 了 评价 [101] 。 表 11-1 总 结 了 Jedlitschka 和 Pfahl 的 提案 ，11. 1 节 对 其 进行 了 
简要 的 介绍 。 


表 11-1 Jedlitschka 和 Pfahl 提出 的 实验 报告 结构 [86] 























章节 / 子 章节 内 g 
标题 、 作 者 、 结 构 化 摘要 根据 背景 或 情境 、 目 标 〈 或 目的 ) 、 方 法 、 结 果 、 结 论 总 结 全 文 
动机 确定 工作 范围 ， 鼓 励 读者 读 下 去 
问题 陈述 报告 问题 是 什么 ， 在 哪里 发 生 ， 谁 进行 观察 












研究 目标 采用 GQM 中 的 规范 样式 定义 实验 




















情境 报告 环境 要 素 ， 例 如 设置 和 位 置 
相关 工作 当前 研究 与 其 他 研究 间 的 关系 如 何 
实验 设计 描述 实验 计划 阶段 的 输出 





描述 精 化 的 研究 目标 
定义 实验 设计 的 类 型 

定义 实验 主体 采样 和 分 组 所 用 到 的 方法 
定义 用 到 的 实验 对 象 

定义 使 用 的 任何 操作 指南 或 度量 指南 








目标 、 假 设 和 变量 
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数据 收集 程序 | “定义 实验 计划 、 时 机 与 数据 收集 程序 
分 析 过 程 详细 说 明 使 用 的 数学 分 析 模 型 





描述 材料 、 过 程 的 有 效 性 ， 确 保 参 与 者 按照 实验 方法 操作 ， 用 方法 确保 数 




























































































iid 据 收集 方法 和 工具 的 有 效 性 和 可 靠 性 
执行 描述 实验 计划 是 如 何 实施 的 

Yk 描述 样本 特征 

准备 实验 小 组 如 何 组 成 及 培训 

数据 收集 的 执行 数据 收集 如 何 进行 ， 与 计划 有 何 偏差 

有 效 过 程 | ”如何 按照 有 效 过 程 实施 ， 与 计划 有 何 偏差 
分 析 总 结 分 析 收 集 的 数据 ， 描 述 分 析 是 如 何 进行 的 
描述 性 统计 采用 描述 性 统计 描述 数据 

数据 集约 简 | 。 描述 对 数据 集 的 任何 约 简 ， 如 离 玫 点 的 去 除 
假设 检验 描述 如 何 对 数据 进行 评估 和 如 何 确认 分 析 模 型 
解释 解释 分 析 阶 段 的 发 现 

结果 评估 和 启示 解释 结果 

研究 局 限 性 讨论 对 有 效 性 的 威胁 

推论 针对 得 到 的 发 现 和 局 限 性 如 何 泛 化 结果 
获得 的 经 验 教训 描述 实验 过 程 中 做 得 好 与 做 得 不 好 的 方面 
结论 与 未 来 工作 展望 描述 研究 的 总 结 

与 现 有 研究 的 关系 与 先前 实验 对 比 ， 描 述 研究 的 贡献 

影响 识别 出 最 重要 的 发 现 

局 限 性 识别 出 方法 的 主要 局 限 性 ， 例 如 ， 无 法 取得 预期 结果 的 情形 
未 来 工作 展望 对 进一步 深入 研究 准备 开展 的 其 他 实验 的 建议 
致谢 列 出 不 是 作者 的 所 有 贡献 者 
参考 文献 列 出 所 有 引用 的 文献 

附件 包括 原始 数据 或 可 能 帮助 他 人 使 用 结果 的 详细 分 析 





11.1 实验 报告 的 结构 


结构 化 摘要 。 摘 要 呈现 给 读者 的 ， 应 该 是 对 实验 关键 特征 进行 的 简要 总 结 。 实 践 
证 明 ， 结 构 化 摘要 不 仅 是 一 种 辅助 数据 抽取 [30] 的 有 效 工具 ， 同 时 也 是 写 好 摘要 的 
有 效 工具 。 一 个 结构 化 摘要 包含 如 下 元 素 : 
背景 或 者 情境 ; 

e 目标 或 目的 ; 

。 方法 ; 

。 结果 ; 

。 结论 。 

示例 : 通过 一 个 结构 化 摘要 的 实例 来 说 明 上 述 摘要 中 的 五 个 元 素 。 这 里 ， 结 构 化 
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摘要 的 长 度 被 限制 在 300 字 以 内 。 

情境 : 在 市 场 营销 领域 ， 已 有 研究 表明 ， 在 一 个 组 织 内 ， 由 于 人 们 的 职责 和 分 工 
不 同 ， 当 谈 及 公司 内 需要 改进 的 事项 时 ， 不 同 角色 对 改进 事项 的 优先 级 认识 也 不 同 。 
但 在 软件 改进 方面 也 是 如 此 吗 ? 

目标 ; 本 文 评估 了 在 一 个 软件 开发 组 织 中 ,不 同 角色 如 何 看 待 软件 过 程 改进 中 的 
不 同 间 题 以 及 这 种 差异 能 否 为 组 织 提供 更 多 的 个 性 化 过 程 改进 ; 同时 ， 将 此 作为 工作 
假设 开展 研究 。 

方法 : 开发 了 一 个 定量 的 调查 问卷 ， 包 括 五 个 不 同 权重 的 、 与 软件 过 程 改进 相关 
的 问题 。 通 过 向 瑞典 一 家 电信 公司 全 部 84 个 雇员 发 放 问卷 开展 调研 ， 回 收 问卷 63 份 。 

结果 : 不 同 角色 对 其 中 3 个 问题 有 不 同意 见 ， 而 对 另外 两 个 问题 意见 一 致 。 在 改 
进 的 重要 性 、 问 题 的 紧急 性 和 对 成 功 过 程 管理 的 威胁 三 个 方面 的 问题 大 家 意见 不 同 ; 
而 意见 一 致 的 问题 则 主要 聚焦 在 过 程 间 的 交流 (文档 和 教学 ) 。 

结论 ;总 结 认为 ， 明 确 并 考虑 不 同 角色 的 不 同 需求 是 很 重要 的 。 这 将 使 得 为 特定 
角色 提供 个 性 化 改进 成 为 可 能 ， 从 而 帮助 他 们 克服 对 过 程 改进 的 抵触 情绪 。 对 于 可 以 
通过 过 程 改进 受益 的 其 他 领域 和 公司 〈 如 市 场 营销 ) ， 本 研究 也 很 重要 。 

动机 。 动 机 或 者 介绍 部 分 确定 了 研究 范围 、 定 义 了 研究 目标 。 因 此 ， 在 动机 部 分 
主要 介绍 确定 研究 范围 阶段 的 结果 详 见 第 7 章 ) 。 介 绍 工作 意图 也 能 激发 读者 的 兴 
趣 。 动 机 的 介绍 能 让 读者 理解 为 什么 做 这 项 研究 以 及 为 什么 需要 做 这 项 研究 。 同 时 ， 
在 这 部 分 也 应 该 简要 介绍 一 下 实验 的 情境 。 

相关 工作 。 相 关 工 作对 于 理解 当前 实验 与 以 前 所 做 的 工作 间 的 关系 非常 重要 。 虽 
然 实验 报告 不 需要 对 以 前 的 工作 做 一 个 完整 的 系统 文献 综述 〈 详 见 第 4 章 ) ， 但 系统 
地 对 已 有 的 文献 进行 搜索 比 对 仍然 非常 有 益 。 特 别 是 在 重复 研究 中 ， 前 期 研究 都 应 该 
被 说 明 。 

实验 设计 。 这 里 ， 应 该 介绍 计划 阶段 的 输出 ， 详 见 第 8 章 。 由 问题 派生 的 假设 应 
该 在 此 进行 详细 描述 。 实 验 设计 的 描述 中 还 应 该 包括 设计 类 型 、 度 量 的 变量 (包括 独 
立 变量 和 非 独立 变量 ) 以 及 实验 操作 指南 。 

实验 设计 中 还 应 该 包括 关于 如 何 收集 与 分 析 数据 的 描述 以 及 对 主体 特征 的 描述 。 
在 此 ， 也 应 该 对 实验 的 结论 有 效 性 、 内 部 有 效 性 、 结 构 有 效 性 和 外 部 有 效 性 进行 讨论 ， 
同时 对 计划 面临 的 威胁 进行 讨论 。 

描述 这 些 方面 的 目的 不 仅 是 让 其 他 人 能 够 理解 实验 设计 ， 从 而 使 得 读者 相信 结果 
是 可 信 的 ， 而 且 能 够 使 研究 可 以 被 重复 。 总 之 ， 实 验 设计 应 该 帮助 读者 更 深入 地 理解 
实验 。 

执行 。 执 行 部 分 首先 描述 实验 准备 是 如 何 做 的 ， 详 见 第 9 章 。 全 方位 的 描述 很 重 
要 ， 这 能 够 使 得 重复 实验 易于 执行 ， 也 能 够 使 读者 洞察 这 些 活动 是 如 何 执行 的 。 描 述 
中 必须 包括 实验 主体 的 准备 ， 如 他 们 是 否 参加 了 某 些 课程 的 培训 。 实 验 的 执行 和 实验 
期 间 的 数据 是 如 何 收集 的 也 应 该 被 描述 。 
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数据 收集 的 确认 过 程 是 另 一 个 必须 强调 的 方面 。 如 果 有 没有 按照 计划 执行 的 步骤 
也 一 定 要 说 明 。 描 述 这 些 信 息 的 目的 是 提供 一 个 数据 有 效 的 案例 并 突显 存在 的 问题 。 

分 析 。 数 据 分 析 部 分 应 该 描述 使 用 某 种 特定 分 析 模 型 的 假设 及 其 计算 过 程 。 描 述 
应 该 包括 样本 大 小 、 显 著 性 水 平和 检验 的 应 用 等 信息 ， 以 便 读 者 了 解 分 析 的 预备 知识 。 
在 解释 分 析 结果 时 应 该 阐明 操作 的 原因 ， 比 如 移 除 离 群 点 的 原因 ， 从 而 避免 误解 。 更 
多 信息 详 见 第 10 章 。 

解释 。 从 分 析 得 来 的 原始 结果 不 足以 理解 实验 结果 和 实验 结论 ， 必 须 提供 解释 ， 
详 见 第 10 章 ， 包 括 拒绝 或 者 不 能 拒绝 原 假设 的 解释 ， 以 及 总 结 应 该 如 何 使 用 从 实验 中 
得 到 的 结果 。 

解释 应 与 有 效 性 相关 ， 见 第 8 章 。 对 结果 产生 影响 的 因素 都 要 予以 描述 。 

结论 和 未 来 工作 展望 。 最 后 ， 在 结论 部 分 应 该 对 实验 的 发 现 和 结论 进行 讨论 ， 作 
为 对 整个 实验 的 总 结 ， 包 括 实验 的 最 终结 果 、 问 题 以 及 与 实验 计划 有 出 人 的 方面 等 。 
实验 结果 也 应 该 与 先前 介绍 的 相关 工作 关联 起 来 。 比 较 这 些 发 现 的 异同 点 也 很 重要 。 

对 未 来 工作 的 展望 可 以 包括 诸如 以 下 方面 的 论述 ， 如 哪里 能 够 找到 更 多 信息 以 帮 
助 读者 更 深入 地 理解 实验 、 哪 里 能 够 找到 更 多 信息 以 使 重复 实验 更 容易 等 。 

附录 。 不 重要 的 信息 可 以 通过 附录 呈现 。 这 些 信息 可 以 是 收集 到 的 数据 、 关 于 实 
验 主体 和 客体 的 更 多 信息 等 。 如 果 文 章 的 意图 是 制作 一 个 实验 包 ， 还 可 以 在 这 里 提供 
实验 中 用 到 的 材料 。 


11.2 练习 


11.1 为 什么 完整 地 记录 实验 非常 重要 ? 

11.2 什么 是 实验 包 ? 你 在 网 上 能 找到 实验 包 吗 ? 

11.3 为 什么 介绍 相关 工作 非常 重要 ? 

11.4 为 什么 仅仅 提供 分 析 的 结果 是 不 够 的 ? 换 句 话说 ， 为 什么 对 结果 进行 特定 的 解 
释 至 关 重 要 ? 

11.5 做 系统 文献 综述 时 哪 类 信息 最 重要 ? 什么 时 候 应 该 进行 重复 实验 ? 


| 第 三 部 分 
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实验 示例 





第 12 章 | 
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本 章 的 主要 目的 是 通过 举例 说 明 前 面 章节 中 介绍 的 实验 和 实验 过 程 。 同 时 ， 本 章 
的 重点 主要 聚焦 于 实验 过 程 而 不 是 遵循 第 11 章 中 提出 的 实验 报告 结构 。 

本 章 中 给 出 的 实验 的 目的 是 调查 具有 不 同 背 景 的 人 在 参与 课程 《个 体 软件 过 程 
(Personal Software Process，PSP) 》 培训 后 使 用 PSP 的 表现 是 否 存在 差异 。 该 实验 是 一 
个 关于 PSP 对 不 同 个 体 的 表现 差异 的 大 型 调查 研究 中 的 一 部 分 。 由 于 “个 体 背 景 ”无 
法 被 随机 地 指派 到 实验 主体 上 ， 因 此 该 实验 实际 上 是 一 个 准 实验 。 

PSP 是 一 种 用 于 管理 和 改进 个 人 软件 开发 方式 的 自我 持续 改进 过 程 ， 是 一 种 支持 
软件 开发 的 系统 化 方法 。 其 过 程 包 括 : 度量 、 评 判 、 规 划 和 追踪 四 个 阶段 。 其 中 ， 重 
用 是 一 个 关键 问题 ， 特 别 是 个 体 经 验 和 数据 的 重用 非常 关键 。PSP 课程 通过 七 个 增 量 
步骤 介绍 整个 过 程 ， 并 通过 使 用 模板 、 表 格 和 过 程 脚本 为 过 程 增加 新 的 特性 。 

为 了 简单 起 见 ， 我 们 在 此 只 评估 两 个 假设 。 此 研究 所 用 的 数据 集 可 以 在 附录 
A. 1.2 中 找到 。 本 章 所 讲述 的 实验 采用 的 数据 集 是 附录 A. 1. 2 的 一 个 子 集 。 


12. 1 确定 范围 


12. 1.1 目标 定义 


第 一 步 要 确定 的 是 : 实验 是 不 是 分 析 当 前 问题 的 一 个 恰当 的 方法 。 在 本 章 的 案例 
中 ， 经 验 型 研究 的 目的 是 在 给 定 个 体 背景 的 前 提 下 ， 判 定 其 使 用 PSP 方法 的 表现 是 否 
存在 个 体 差异 。 

实验 的 动机 在 于 ， 需 要 了 解 使 用 PSP 方法 时 个 体 表 现 上 的 差异 。 众 所 周知 ， 软 件 
工程 师 的 表现 是 千差万别 的 。 引 入 个 体 软 件 过 程 的 目的 之 一 就 是 为 个 人 提升 其 工作 能 
力 提供 支持 。 为 了 尽 可 能 支持 这 种 改进 ， 了 解 在 使 用 PSP 时 可 能 有 哪些 预期 差异 、 是 
否 有 可 能 解释 这 些 差异 ， 并 进而 理解 个 体 差异 是 非常 重要 的 。 

研究 对 象 ”研究 对 象 是 PSP 课程 的 学 员 以 及 这 些 学 员 基于 其 背景 和 经 验 所 表现 出 
的 能 力 。Humphrey 在 他 的 两 本 书 [82, 83] 中 从 研究 对 象 的 角度 给 出 了 个 体 软 件 过 程 
PSP 的 定义 。 

目的 ”实验 目的 是 基于 参加 PSP 课程 的 个 体 背景 评估 个 体 的 表现 。 通 过 实验 洞察 
使 用 PSP 方法 与 个 体 表 现 间 的 关系 。 

视角 ”本 研究 是 从 研究 者 和 教师 的 视角 出 发 开展 研究 。 例 如 ， 研 究 者 或 者 教师 希 
望 知道 : 参加 PSP 课程 的 学 员 的 不 同 背 景 是 否 会 导致 其 在 课程 中 的 表现 出 现 系 统 性 差 

那些 希望 将 来 参加 PSP 课程 学 习 或 者 希望 将 PSP 方法 引入 产业 界 的 人 士 也 同样 希 





望 得 知 结论 。 

质量 焦点 ”实验 研究 的 主要 效果 是 个 体 在 PP 课程 中 的 表现 。 其 中 ， 有 两 个 度量 
指标 : 生产 率 〈 千 行 / 开 发 时 间 ) 和 错误 率 (错误 数 / 千 行 )， 其 中 千 行 (KLOC) 代表 
千 行 代码 。 

情境 本 实验 是 在 瑞典 Lund 大 学 通信 系统 系 1996 ~ 1997 学 年 PSP 课程 中 进行 的 。 
与 Humhrey[ 82] 中 阐述 的 PSP 的 主要 不 同 之 处 在 于 ， 本 实验 采用 了 编码 规范 和 行 计数 
标准 ; 同时 ， 不论 参与 PSP 课程 学 员 的 背景 如 何 ， 本 课程 统一 使 用 C 语言 作为 指定 编 
程 语言 。 实 验 情境 特征 属于 “ 单 对 象 多 检验 研究 ”， 如 表 7-1 所 示 。 本 研究 聚焦 于 
PSP， 或 者 更 确切 地 说 ， 聚 焦 于 Humhrey[82] 中 标记 为 1A-10A 的 10 个 程序 。 有 许多 
学 生 学 习 了 本 课程 〈 本 年 度 共有 65 个 学 生 完成 了 本 课程 的 学 习 )。 因 此 ， 从 7.1 节 可 
以 看 出 ， 本 研究 包括 65 个 主体 。 因 此 ， 根 据 定义 ， 本 研究 可 以 被 判定 为 一 个 对 照 实 
验 。 学 生 的 来 源 缺 乏 随机 性 ， 学 生 是 选修 PSP 课程 的 学 生 ， 意 味 着 本 研究 还 缺乏 一 个 
使 之 成 为 一 个 完全 的 对 照 实验 的 重要 因素 。 因 此 ， 本 实验 是 一 个 准 实验 ， 参 见 7.1 节 。 


12.1.2 范围 总 结 


根据 7. 2 节 的 要 求 ， 总 结 如 下 : 
研究 对 象 : PSP 的 输出 结果 

目的 : 评价 

质量 焦点 : 个 体 的 背景 知识 

视角 : 研究 人 员 和 教师 的 角度 解释 
情境 : PSP 课程 


12.2 计划 


12.2.1 ”情境 选择 


本 实验 的 情境 为 大 学 中 的 PSP 课程 ， 因 此 是 在 线 下 进行 的 〈 即 不 是 在 一 个 产业 界 
的 软件 开发 过 程 中 进行 的 ) 。 实 验 由 毕业 生 完 成 〈 通 常 是 大 学 四 年 级 学 生 ); 同时 ， 由 
于 它 聚 焦 于 教育 环境 下 的 PSP， 因 此 ， 实 验 具 有 特殊 性 。 将 本 实验 这 种 特定 的 情境 中 
得 出 的 结论 泛 化 到 其 他 情境 的 能 力 ， 将 在 讨论 对 实验 的 有 效 性 威胁 时 进一步 前述。 本 
实验 讨论 的 是 一 个 真实 存在 的 问题 : 在 PSP 中 个 体 表 现 的 差异 以 及 对 这 些 差异 的 理解 。 

由 于 本 实验 定义 清晰 ， 所 以 将 PSP 的 使 用 作为 实验 的 情境 为 其 他 研究 人 员 重 现实 
验 提供 了 绝 佳 的 机 会 。 同 时 ， 这 也 意味 着 没有 必要 在 进行 实验 时 花费 太 多 的 精力 去 定 
义 和 创建 实验 。Humhrey[82] 已 经 定义 了 实验 情境 ， 因 此 ， 在 此 没有 必要 为 数据 收集 
等 活动 准备 表单 。 


12.2.2 构建 假设 
实验 的 一 个 重要 方面 就 是 明确 并 正式 、 清 晰 地 声明 实验 将 要 评估 什么 。 这 将 形成 
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一 个 或 多 个 假设 。 这 里 ， 我 们 选择 聚焦 于 以 下 两 个 假设 : 

1. 来 自 于 计算 机 科学 与 工程 (Computer Science and Engineering, CSE) 培养 计划 
和 电气 工程 (Electrical Engineering, EE) 培养 计划 的 学 生 学 习 了 PSP 课程 。 通 常情 况 
F, CSE 的 学 生 学 习 过 更 多 计算 机 科学 与 软件 工程 方面 的 课程 ， 因 此 ， 预 期 他 们 比 EE 
的 学 生生 产 率 更 高 。 

2， 作 为 课程 第 一 讲 的 一 部 分 ， 要 求学 生 填 写 一 张 问 卷 调查 表 ， 调 查 他 们 与 本 课程 
相关 的 背景 经 验 (如 表 A-1 所 示 ) ， 例 如 ， 是 否 具 备 C 语言 的 知识 。 无 论 学 生 先 前 是 
否 拥有 C 语言 的 使 用 经 验 ， 都 要 求 在 课程 中 使 用 C 语言 。 因 此 ， 这 意味 着 不 要 求学 生 
在 参加 PSP 课程 之 前 已 经 学 习 过 C 语言 ， 同 时 也 意味 着 部 分 学 生 需 要 在 PSP 课程 上 学 
习 C 语言 。 这 不 是 根据 Humhrey [82] 的 推荐 来 做 的 。 基 于 C 语言 经 验 的 假设 为 ， 拥 
有 更 多 C 语言 编程 经 验 的 学 生 在 单位 代码 行 中 所 犯 的 错误 会 更 少 。 

基于 上 述 假 设 的 非 正式 陈述 ,我 们 可 以 对 其 进行 规范 描述 ， 同 时 定义 评估 此 假设 
所 需 的 度量 指标 : 

1. AB Ho: CSE 的 学 生 与 EE 的 学 生 在 生产 率 (利用 单位 开发 时 间 开 发 的 代码 
行 数 进行 度量 ) 方面 没有 差异 。 

原 假设 Ho: Prod( CSE) =Prod( EE) 

备 择 假设 H,: Prod( CSE) *#Prod( EE) 

度量 指标 : 培养 计划 (CSE 或 EE) 和 生产 率 (LOC/Hour ) 

2. 原 假设 Hy: 是 否 拥有 C 语言 相关 的 背景 知识 ， 对 学 生 们 编程 过 程 中 产生 的 每 
千 行 〈 每 1000 行 代码 ) 错误 个 数 没有 影响 。 

原 假设 Hy: 每 千 行 代码 中 的 错误 率 与 是 否 拥有 C 语言 经 验 无 关 。 

备 择 假设 H: 每 千 行 代码 中 的 错误 率 与 C 语言 经 验 相关 。 

度量 指标 : C 语言 经 验 和 每 千 行 代码 中 的 错误 率 (Faults/ KLOC) 。 

上 述 假设 意味 着 需要 收集 以 下 数据 : 

o 培养 计划 : 用 CSE 或 EE 度量 ( 定 类 尺度 ) 

。 生产 率 : 通过 代码 行 数 / 开 发 时 间 来 度量 。 因 此 ， 需 要 度量 程序 的 大 小 〈 代 码 
行 数 需要 根据 编码 标准 和 计数 标准 来 衡量 ) 和 开发 时 间 (开发 程序 需要 的 分 钟 
数 ) 。 在 计算 生产 率 时 ， 需 要 将 开发 时 间 转 化 为 以 小 时 为 单位 。 值 得 注意 的 是 ， 
本 实验 中 研究 的 是 总 的 程序 代码 量 (10 个 编程 作业 的 代码 量 的 和 ) 和 开发 10 
个 程序 所 用 的 总 开发 时 间 。 因 此 ， 也 就 意味 着 本 实验 并 不 研究 单个 编程 作业 。 

代码 的 行 数 是 通过 使 用 一 个 计数 程序 进行 计量 的 〈 定 比 尺度 ) 。 被 纳入 统 
计 的 行 是 新 的 或 是 修改 过 的 代码 行 。 

因此 ， 开 发 时 间 采 用 分 钟 度量 〈( 定 比 尺度 ) ， 生 产 率 也 是 采用 定 比 尺度 进 
行 度量 的 。 

C 语言 经 验 是 通过 将 学 生 先前 的 C 语言 经 验 分 为 四 个 级 别 ( 定 序 尺度 ) 来 度量 
的 。 这 四 个 级 别 分 别 是 : 
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(1) 没有 先 验 经 验 。 
(2) 读 过 一 本 书 或 上 过 一 门 课程 。 
(3) 一 些 工 业 开发 经 验 (小 于 6 个 月 )。 
(4) 工业 开发 经 验 (超过 6 个 月 )。 
KIE, C 语言 经 验 是 使 用 定 序 尺 度 来 度量 的 。 
© 错误 率 (Faults/KLOC) 是 通过 错误 数量 除 以 代码 行 数 来 度量 的 。 
最 后 ， 这 些 假设 和 度量 给 统计 检验 类 型 的 选择 带 来 了 一 些 约束 。 虽 然 度 量 标 度 决 
定 了 能 够 应 用 何 种 统计 方法 ， 但 我 们 也 可 能 出 于 某 些 其 他 原因 希望 放宽 这 些 限 制 条 件 。 
对 于 这 个 问题 ， 我 们 将 会 在 后 面 讨论 实验 的 实际 设计 类 型 时 进一步 探讨 。 


12.2.3 变量 选择 


培养 计划 和 C 语言 经 验 是 独立 变量 。 而 生产 率 和 每 千 行 代码 的 错误 率 是 非 独 立 
变量 。 


12.2.4 ŁA 


实验 主体 是 基于 便利 原则 进行 选择 的 ， 即 本 实验 的 主体 是 参加 PSP 课程 的 学 生 。 
这 些 学 生 可 以 看 作 是 这 两 种 培养 计划 下 所 有 学 生 的 一 个 样本 ,但 并 非 一 个 随机 样本 。 


12. 2.5 实验 设计 


在 以 上 小 节 中 ,我 们 已 经 阐明 了 研究 问题 且 已 选 定 了 独立 变量 与 非 独 立 变量 ; 同 
时 ， 也 已 确定 了 这 些 变量 的 度量 标 度 。 因 此 ， 现 在 可 以 着 手 设计 实验 了 。 设 计 实 验 的 
第 一 步 是 声明 总 体 设计 原则 : 

随机 策略 ”实验 对 象 不 是 随机 分 配给 实验 主体 的 。 所 有 的 学 生 都 使 用 PSP 方法 和 
ER 10 个 任务 。 研 究 目标 也 不 是 用 PSP 方法 和 其 他 方法 进行 比较 。 实 验 主 体 亦 如 上 文 
所 述 选 择 了 学 习 PSP 课程 的 学 生 而 非 随 机 选择 。 此 外 ，10 个 任务 的 顺序 也 不 是 随机 
的 。 作 业 的 顺序 并 不 重要 ， 因 为 评估 使 用 的 度量 值 是 10 段 开发 程序 的 结果 。 

分 块 阻 断 ”实验 并 没有 使 用 系统 的 方法 进行 分 块 。 将 10 段 程序 作为 一 个 整体 进行 
度量 评估 而 不 是 对 每 段 程序 单独 进行 度量 评估 的 决策 可 以 看 作 是 为 了 阻 断 这 10 段 程序 
间 的 差异 ， 也 就 是 说 ， 阻 断 程序 间 的 差异 对 实验 结果 的 影响 。 

均衡 设计 “本 来 最 好 是 能 够 有 一 个 平衡 的 数据 集 ， 但 由 于 实验 研究 是 基于 一 门 参 
与 者 学 习 的 课程 ， 因 此 ， 不 可 能 影响 参与 者 的 知识 背景 ， 从 而 无 法 平衡 数据 集 。 

标准 设计 类 型 ”参照 第 8 章 介绍 的 各 种 设计 类 型 标准 衡量 上 述 信息 ， 可 以 发 现 ， 
上 述 实验 设计 可 以 被 归 类 到 标准 设计 类 型 中 。 同 时 ， 本 书 还 提供 了 可 以 使 用 的 统计 检 
验方 法 。 

(1) 第 一 次 评估 的 定义 、 假 设 和 度量 意味 着 其 设计 类 型 为 :“ 单 因子 双 处 置 "。 其 
中 ， 因 子 是 指 培养 计划 ， 而 处 置 则 是 指 CSE 和 EE。 由 于 采用 定 比 尺度 度量 非 独立 变 
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量 ， 因 此 适合 使 用 参数 检验 。 在 本 案例 中 ， 选 择 使 用 上 检验 。 

(2) 第 二 种 设计 属于 “ 单 因子 多 处 置 ”的 设计 类 型 。 此 时 ， 因 子 指 C 语言 经 验 ， 
多 种 处 置 是 指 评价 经 验 等 级 的 四 种 类 型 。 由 于 采用 定 比 尺度 度量 非 独立 变量 ， 因 此 也 
适合 使 用 参数 检验 。 在 本 案例 中 ， 选 择 使 用 ANOVA 检验 进行 评估 。 


12.2.6 实验 工具 


受 试 个 体 的 背景 和 经 验 通过 第 一 次 课程 上 的 问卷 调查 可 以 获得 ， 参 见 附 录 A 中 的 
表 A-1。 表 A-1 中 的 数据 代表 着 学 生 的 特征 ， 因 此 ， 将 作为 实验 中 的 独立 变量 。 研 究 
的 对 象 是 在 PSP 课程 中 开发 出 的 程序 。 在 PSP 课程 过 程 中 , 文献 [82] 提供 了 指南 及 
度量 方法 。 


12.2.7 有 效 性 评价 


本 实验 需要 考虑 四 种 有 效 性 威胁 。 内 部 有 效 性 (Internal validity) 主要 聚焦 于 实际 
研究 的 有 效 性 。 外 部 有 效 性 (External validity) 可 以 从 以 下 几 个 方面 分 析 : Lund 大 学 中 
将 来 准备 参加 PSP 课程 学 习 的 学 生 、Lund 大 学 的 学 生 (或 者 更 实际 地 指 CSE 和 EE 的 学 
生 ) 、 一 般 的 PSP 开发 人 员 和 一 般 的 软件 开发 人 员 。 结 论 有 效 性 (Conclusion validity) 关 
注 实 验 处 置 与 实验 结果 之 间 的 关系 以 及 得 出 结论 的 能 力 。 结 构 有 效 性 (Construction 
validity ) 关注 将 实验 结论 泛 化 为 实验 背后 的 理论 。 

课堂 内 的 内 部 有 效 性 可 能 不 存在 问题 ， 大 量 的 测试 样本 数 (同学 生 人 数 相 同 ) 确 
保 了 良好 的 内 部 有 效 性 。 

对 外 部 有 效 性 而 言 ， 如 果 在 Lund 大 学 使 用 相似 的 方法 授课 ， 很 可 能 会 获得 相似 的 
结果 。 如 果 和 希望 将 这 些 结果 泛 化 到 其 他 学 生 ， 比 如 那些 没有 参加 过 课程 学 习 的 学 生 ， 
将 更 困难 一 些 。 由 于 他 们 来 源 于 不 同人 群 ， 可 能 对 软件 开发 没有 兴趣 。 实 验 的 分 析 结 
果 可 能 也 会 推广 到 其 他 PSP 课程 ， 只 要 能 够 基于 参与 者 的 背景 〈 计 算 机 科学 或 电气 工 
程 ) 以 及 他 们 在 某 种 特定 程序 语言 的 经 验 对 参与 者 进行 比较 即 可 。 

对 结论 有 效 性 而 言 ， 最 大 的 威胁 是 PSP 课程 期 间 搜集 的 数据 的 质量 。 由 于 期 望 学 
生 在 课程 中 将 这 些 数 据 作 为 作业 的 一 部 分 提供 ， 因 此 ， 存 在 数据 造假 的 风险 或 者 由 于 
失误 而 产生 错误 数据 的 风险 。 同 时 ， 由 于 研究 问题 本 身 与 学 生 背 景 无 关 ， 因 而 可 能 存 
在 的 数据 不 一 致 性 也 与 特定 的 学 生 背 景 无 关 。 因 此 ， 结 论 有 效 性 并 不 关键 。 

结构 有 效 性 面临 两 种 主要 威胁 。 第 一 种 威胁 是 定义 的 度量 方法 可 能 不 适合 对 研究 
对 象 进行 度量 。 例 如 ,“ 代 码 行 数 /开发 时 间 ” 是 一 种 度量 生产 率 的 好 方法 吗 ? 第 二 种 
对 结构 有 效 性 的 威胁 来 源 于 实验 是 课程 的 一 部 分 ， 将 根据 学 生 在 课程 中 的 表现 给 学 生 
打分 。 这 意味 着 学 生 可 能 会 偏向 于 给 出 他 们 认为 能 够 让 他 们 获得 更 好 分 数 的 数据 。 但 
事实 上 ， 在 课程 开始 我 们 就 强调 了 学 生成 绩 与 实际 的 数据 无 关 ， 而 是 取决 于 及 时 、 正 
确 地 提交 作业 和 课堂 上 所 提交 的 报告 中 表达 的 对 学 习 内 容 的 理解 。 

虽然 得 到 的 结论 来 自 于 针对 PSP 课程 展开 的 实验 ， 但 这 些 结 果 也 可 以 推广 到 一 般 
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的 软件 开发 过 程 。 没 有 理由 证 明 ,， 来自 于 不 同 培养 计划 或 者 拥有 某 种 特定 编程 语言 经 
验 的 人 在 执行 PSP 和 一 般 的 软件 开发 过 程 时 会 有 不 同 的 表现 。 但 如 果 考 虑 参与 者 的 背 
景 差异 (存在 差异 大 小 的 区 别 )， 则 “他 们 在 执行 PSP 和 一 般 的 软件 开发 过 程 时 会 有 
不 同 的 表现 ”很 可 能 是 合理 的 。 重 要 的 问题 是 ,确实 存在 差异 , 但 差异 的 大 小 是 次 
要 的 。 


12.3 操作 


12. 3.1 准备 

实验 主体 (学生) 并 不 清楚 将 针对 哪 方面 开展 实验 研究 。 他 们 被 告知 研究 人 员 希 
望 研究 不 同 背 景 的 参与 者 学 习 PS 课程 的 结果 ， 但 并 没有 告诉 他 们 实验 假设 。 从 学 生 
的 观点 来 看 ， 他 们 主要 是 在 选修 一 门 课程 而 不 是 参与 一 项 实验 。 我 们 向 所 有 学 生 保证 


会 匿名 使 用 信息 。 
调查 问卷 已 经 提前 准备 好 ， 其 他 大 多 数 材料 来 自 于 PSP 教材 [82]. 
12. 3.2 执行 


整个 实验 历时 14 周 ， 在 此 期 间 ， 学 生 们 定期 提交 了 10 个 编程 作业 。 实 验 数据 主 
要 通过 表格 收集 。 在 课程 结束 时 ， 使 用 面谈 法 对 课程 和 PSP 方法 进行 评估 。 

如 前 所 述 ， 实 验 是 在 一 个 大 学 的 PSP 课程 中 进行 的 。 因 此 ， 不 允许 实验 影响 PSP 
课程 的 教学 目标 。 同 单纯 的 PSP 课堂 教学 存在 的 主要 差异 是 ， 对 学 生 背 景 的 初始 调研 。 


12.3.3 数据 确认 


共 收 集 了 65 个 学 生 的 数据 信息 。 课 程 结束 后 ,课程 涉及 的 所 有 成 员 共同 分 析 了 学 
生 取 得 的 成 绩 。 其 中 ， 有 6 个 学 生 的 数据 被 认定 为 不 合理 或 至 少 是 有 问题 的 而 被 移 除 。 
在 此 阶段 ， 是 否 去 除 学 生 的 数据 并 不 是 基于 对 其 真实 数据 的 评估 ， 而 是 基于 我 们 是 否 
相信 学 生 提 交 的 数据 并 相信 数据 是 否 具有 代表 性 。 这 6 个 学 生 的 数据 被 移 除 的 原因 是 : 

。 两 个 学 生 的 数据 没有 被 正确 地 填 人 表格 中 。 

。 一 个 学 生 完 成 作业 的 时 间 比 其 他 学 生 晚 得 多 ， 并 且 其 在 PSP 课程 上 同样 有 很 长 
一 段 时 间 没 有 完成 工作 。 这 可 能 会 影响 数据 。 

。 两 个 学 生 没 有 按时 提交 他 们 的 作业 并 且 比 其 他 学 生 要 求 得 到 更 多 的 帮助 ， 因 
此 ， 认 定 这 些 额 外 的 帮助 可 能 影响 他 们 的 数据 。 

。 最 后 ， 有 一 个 学 生 的 背景 和 其 他 人 完全 不 同 。 因 此 ， 他 的 数据 也 被 移 除 。 
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因此 ， 从 65 个 学 生 中 移 除了 6 个 学 生 ， 即 留 下 了 59 个 学 生 的 数据 进行 统计 分 析 


和 结果 解释 。 
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12.4 分析 与 解释 


12.4.1 描述 性 统计 


作为 数据 分 析 的 第 一 步 ， 使 用 描述 性 统计 将 收集 的 数据 可 视 化 。 

学 生来 源 VS 生产 率 ”图 12-1 展示 了 按照 学 生 人 数 与 生产 率 类 别 分 类 的 分 属 两 个 
培养 计划 的 学 生 的 生产 率 。 第 一 类 是 生产 率 为 每 小 时 编程 5 到 10 行 ， 依 此 类 推 ,第 八 
类 是 每 小 时 编程 40 至 45 行 。 通 过 图 12-1 可 以 看 出 EE 的 学 生生 产 率 较 低 。 此 外 ， 可 
以 明显 地 看 出 ，CSE 的 学 生 的 生产 率 差 异 更 大 。 我 们 共有 32 个 CSE 的 学 生 和 27 个 EE 
的 学 生 。CSE 学 生 的 平均 生产 率 是 23.0， 标 准 差 为 8.7; 而 EE 的 学 生 的 平均 生产 率 为 
16.4， 标 准 差 为 6.3。 为 了 能 够 更 好 地 理解 所 获得 的 数据 ， 我 们 绘制 了 箱 形 图 ， 如 
图 12-2 所 示 。 


bait $8 BF > 


B EE 
o CSE 





1 3 5 -= | 8 本 
生产 率 类 别 ( 类 别 1=5~10 行 /小 时 ， 类 别 2=10~15 行 /小 时 ， 依 此 类 推 ) 


图 12-1 生产 率 频 率 分 布 (分 类 显示 ) 





CSE EE 
图 12-2 两 种 培养 计划 的 学 生生 产 率 的 箱 形 图 
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箱 形 图 的 延长 线 是 根据 Frigge [60] 中 的 方法 绘制 的 ， 并 已 在 第 10 章 进 行 了 讨 
论 。 延 长 线 的 长 度 是 箱 体 长 度 的 1.5 倍 ， 是 分 别 在 其 上 确 界 和 下 确 界 上 加 上 或 减 去 1.5 
倍 的 四 分 位 距 〈 即 箱 体 长 度 ) 后 得 到 的 。 例 如 ， 对 于 CSE 的 学 生来 说 (如 图 12-2 所 
R): 中 位 数 =22.7， 箱 体 长 度 =29.4 -17.6 =11.8， 上 延长 线 的 长 度 为 : 29.4 +1.5 
x11.8 =47. 1。 但 箱 体 图 构造 规则 要 求 ， 上 延长 线 顶 端 和 下 延长 线 尾 端 不 应 该 超过 数 
据 集中 的 最 大 值 和 最 小 值 。 因 此 ， 上 延长 线 的 顶端 取 数 据 集 的 最 大 值 和 2. 5。 此 规则 是 
为 了 避免 负 值 或 其 他 类 型 的 不 合理 值 的 出 现 。 图 12-2 中 的 其 他 值 可 以 使 用 与 此 类 似 的 
方式 来 确定 。 

从 图 12-2 中 不 难看 出 ，EE 的 学 生生 产 率 较 低 。 因 此 ， 也 许可 以 通过 假设 检验 识 
别 出 其 中 的 统计 差异 。 以 下 使 用 tt 检验 进行 检验 。 

与 上 延长 线 和 下 延长 线 相 比 ， 观 察 离 群 点 同样 很 重要 。 对 于 CSE 的 学 生 ， 没 有 超 
出 延长 线 的 离 群 点 。 对 于 EE 的 学 生 ， 存 在 一 个 值 34.4 超出 了 延长 线 。 由 于 我 们 认为 
它 只 是 一 个 非 正 常 值 而 不 是 一 个 极端 值 ， 故 而 还 是 决定 将 其 纳入 分 析 ， 而 没有 将 其 视 
为 离 群 点 。 

C 语言 经 验 VS. 错误 率 (Faults/KLOC) ”每 类 不 同类 别 C 语言 经 验 的 学 生 数 如 
表 12-1 所 示 ， 同 时 呈现 的 还 有 均值 、 中 位 数 以 及 各 个 类 别 的 标准 差 。 


表 12-1 不 同类 型 C 语言 经 验 学 生 的 错误 率 ( Faults/KLOC) 









Faults/KLOC 的 中 位 数 Faults/KLOC 的 均值 
66.8 | 82.9 
69.7 68.0 
63.6 
63 


Faults/KLOC 的 标准 差 
64.2 
22.9 





























@ 不 同 经 验 的 分 类 解释 见 12. 2.2 节 。 


从 表 12-1 可 以 看 出 ， 分 布 向 没有 或 很 少 有 C 语言 经 验 的 方向 倾斜 。 如 果 参 考 
Faults/KLOC 的 均值 ， 似 乎 经 验 更 多 的 学 生 犯 的 错误 更 少 。 在 根据 假设 对 均值 和 中 位 
数 进行 比较 时 ， 中 位 数 的 变化 与 期 望 不 同 。 标 准 差 ， 特 别 是 类 别 1 的 标准 差 非常 大 ， 
建议 进行 更 深层 次 的 调查 。 因 此 ， 也 可 以 用 箱 形 图 来 分 析 此 数据 集 。 

我 们 对 这 四 个 类 别 的 数据 分 别 建立 了 箱 形 图 。 其 中 类 型 2 ~4 的 箱 形 图 没有 异常 ， 
其 值 均 落 在 了 延长 线 内 ， 且 上 延长 线 顶 端 和 下 延长 线 底 端 分 别 与 最 大 最 小 值 相 等 。 而 
类 型 1 的 箱 形 图 却 显得 相当 耐人寻味 ， 如 图 12-3 所 示 。 

如 图 12-3 所 示 ， 下 延长 线 的 底 端 与 Faults/KLOC 的 最 小 值 相等 。 但 上 延长 线 顶 端 
却 与 Faults/KLOC 的 最 大 值 不 同 ， 存 在 两 个 非 正常 值 : 145 和 398. 1。 后 者 是 一 个 极端 
值 ， 比 最 小 值 大 十 多 倍 ， 也 几乎 是 第 二 大 值 145 的 三 倍 。 因 此 ， 可 认为 此 极端 值 导致 
了 标准 差 增 大 。 为 检验 第 二 个 假设 ,我 们 使 用 了 ANOVA 检验 。 

使 用 描述 性 统计 能 更 好 地 理解 数据 内 涵 ， 包 括 如 何 理解 假设 检验 的 结论 以 及 如 何 
发 现 离 群 点 可 能 造成 的 潜在 问题 。 


169 
170 


171 








a 398.1 


150 
141.3 


100 





0 
CSE 


图 12-3 类 别 1 的 Faults/KLOC 箱 形 图 


12.4.2 数据 约 简 


数据 约 简 常常 伴 有 争议 性 ， 因 为 只 要 有 数据 被 丢弃 ， 就 会 造成 信息 丢失 。 有 两 种 
不 同 的 数据 约 简 方法 : 

© 移 除 单个 数据 点 ， 如 离 群 点 。 

© 对 数据 进行 分 析 ， 基 于 分 析 结 果 发 现 其 中 一 些 变量 高 度 相 关 ， 从 而 将 相关 的 度 

量 组 合 构成 某 种 更 抽象 的 度量 。 

这 意味 着 我 们 可 以 移 除 一 些 数据 点 或 者 减少 变量 的 个 数 。 在 移 除 数据 点 时 ， 被 移 
除 的 主要 是 离 群 点 。 这 并 不 意味 着 所 有 的 离 群 点 都 应 该 被 移 除 ， 但 是 它们 确实 是 选择 
移 除 的 候选 对 象 。 应 该 牢记 的 是 ， 不 要 仅仅 因为 数据 点 与 信念 或 假设 不 符 而 简单 地 将 
之 移 除 。 但 从 另 一 个 角度 看 ， 去 除 那些 使 合理 关系 变 成 不 合理 的 数据 点 至 关 重 要 ， 比 
如 ， 去 除 一 个 在 重复 实验 中 无 法 再 现 的 、 极 端的 离 群 点 。 

为 了 约 简 变量 个 数 ， 需 要 使 用 专门 进行 数据 约 简 的 统计 学 方法 ， 比 如 主 成 分 分 析 
法 和 因子 分 析 法 [90，91，118] 。 由 于 此 处 的 目标 不 是 约 简 变 量 的 个 数 ， 因 此 ， 将 不 
在 此 讨论 这 些 方 法 。 

由 于 我 们 总 是 倾向 于 获得 或 证 明 某 种 结论 ， 从 而 倾向 于 去 除 导 致 结论 不 能 成 立 的 
数据 点 ， 因 此 最 好 能 对 数据 集 如 何 约 简 制定 一 些 约束 。 因 此 ， 对 上 述 数 据 ， 我 们 仅仅 
移 除 了 Faults/KLOC 这 个 指标 上 的 极端 离 群 点 。 移 除 此 点 后 ， 类 型 1 的 数据 如 表 12-2 
所 示 。 
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表 12-2 C 语言 经 验 为 类 别 1 的 学 生 的 Faults/KLOC 


学 生 类 型 | 学 生 数 量 Faults/KLOC 的 中 位 数 Faults/KLOC 的 均值 Faults/KLOC 的 标准 差 
1 31 66 7 29.0 





当然 ， 离 群 点 的 移 除 减 小 了 均值 和 标准 差 。 虽 然 类 别 1 的 Faults/KLOC 的 均值 仍 
然 是 最 大 的 ， 但 同 其 他 三 个 类 别 相 比 差异 已 经 不 那么 大 了 。 在 从 第 二 个 数据 集中 约 简 
一 个 数据 点 后 ， 已 不 可 能 对 其 执行 统计 检验 了 。 


12. 4.3 假设 检验 


WA “CSE 的 学 生生 产 率 更 高 ”的 第 一 个 假设 使 用 上 检验 进行 检验 ， 而 运用 ANO- 
VA 检验 则 被 用 来 评估 “C 语言 经 验 越 多 意味 着 Faults/ KLOC 越 小 ”这 个 假设 。 

培养 计划 VS. 生产 率 上 -检验 ( 非 成 对 双 侧 检验 ) 的 结果 如 表 12-3 所 示 。 

由 表 12-3 FY, (Bi Ho 被 拒绝 ， 即 来 源 于 不 同 培养 计划 的 学 生 在 编程 效率 方面 
具有 显著 差异 。p 值 (p-value) 非常 小 ， 故 而 结果 非常 显著 。 造 成 差异 的 实际 原因 和 需 
进一步 评估 。 


表 12-3 t-PA 


Aa F 平均 差异 自 由 度 t- 值 P- 值 
CSE vs. EE 6. 1617 57 3. 283 0. 0018 





R 12-4 ANOVA 检验 结果 






因子 : Cvs. Faults/KLOC 
处 置 间 
错误 


















虽然 从 均值 这 方面 可 以 观察 到 一 些 差 异 ， 但 统计 分 析 的 结果 并 不 显著 ， 表 明 具 有 
不 同类 别 C 语言 经 验 的 学 生 在 其 编写 的 程序 中 Faults/KLOC 间 并 无 显著 差异 。 

由 于 级 别 3、4 中 包含 的 学 生 的 数量 非常 有 限 ， 因 此 我 们 将 2 ~4 三 个 级 别 归 为 一 
组 ， 以 研究 级 别 1 与 其 他 级 别 学 生 之 间 的 差异 。 采 用 上 检验 评估 是 否 能 够 将 级 别 1 与 
其 他 级 别 学 生 区 分 开 来 ， 结 果 不 具 备 显著 性 。 


12.5 总 结 
我 们 研究 了 两 个 假设 : 


(1) 培养 计划 vs， 生 产 率 ; 
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(2) CER A vs. Faults/ KLOC, 

结论 表明 ，CSE 的 学 生生 产 率 更 高 。 虽 然 我 们 没有 在 假设 中 正式 声明 ， 但 这 一 结 
论 符合 预期 。 我 们 的 预期 是 基于 这 样 的 认识 : 大 多 数 来 自 于 CSE 的 学 生 比 EE 的 学 生 
选修 过 的 计算 机 科学 与 软件 工程 方面 的 课程 更 多 。 

我 们 无 法 从 统计 学 角度 证 明 学 生 在 C 语言 方面 的 经 验 会 影响 其 每 千 行 代码 的 错误 
率 。 有 趣 的 是 ，Humphrey [82] 曾 建议 应 该 在 PSP 课程 之 前 选修 C 语言 这 门 广为人知 
的 程序 设计 语言 ， 从 而 使 得 学 习 者 能 够 集中 精力 学 习 PSP 而 不 是 程序 设计 语言 。 实 验 
获得 的 结果 也 许 预示 以 下 的 一 个 或 多 个 结果 : 

。 随 着 学 生 人 数 的 增加 ， 其 中 的 差异 将 会 更 加 显著 。 

。 错误 的 数量 并 不 显著 受 参与 者 的 前 期 经 验 影 响 。 也 许 在 开发 软件 时 人 们 会 犯 一 

定数 量 的 错误 。 错 误 的 类 型 可 能 不 同 ， 但 错误 总 量 趋 于 相同 。 
。 没有 此 语言 经 验 的 学 生 也 可 能 编写 过 大 量程 序 ， 这 可 能 直接 影响 了 Faults/ 
KLOC, 

当然 ， 我 们 也 可 以 找到 其 他 解释 ， 但 它们 都 有 同一 个 共同 的 特点 即 需要 重复 。 重 
复 对 于 使 我 们 理解 、 继 而 控制 和 改进 软件 开发 方法 至 关 重 要 。 此 外 ， 其 他 因素 同样 也 
需要 研究 。 

从 有 效 性 方面 看 ， 有 理由 相信 CSE 的 学 生 (从 总 体 来 说 ) 比 来 自 于 其 他 学 科 的 学 
生生 产 率 更 高 。 这 或 多 或 少 源 于 其 教育 背景 ， 不 值得 惊讶 。 

既然 不 能 给 出 程序 设计 语言 的 经 验 同 每 千 行 代码 错误 率 之 间 存 在 任何 统计 意义 上 
的 关系 ， 也 就 没有 什么 结论 可 以 推 而 广 之 。 这 表明 我 们 还 需要 通过 重复 PSP 实验 或 者 
在 其 他 环境 中 进行 类 似 实 验 来 进行 进一步 研究 。 


12.6 结论 


由 于 上 述 实验 比较 的 因素 不 是 随机 分 配给 实验 主体 的 ， 而 是 实验 主体 本 身 固有 的 
属性 (如 实验 主体 的 教育 背景 )， 因 此 ， 它 是 一 个 准 实 验 。 将 学 生 作为 实验 主体 ， 为 
结论 提供 了 好 的 内 部 有 效 性 ， 但 却 是 以 影响 结论 外 部 有 效 性 为 代价 的 。 由 于 实验 是 在 
PSP 课程 中 进行 的 且 其 情境 都 已 明确 定义 ， 因此， 对 于 进行 重复 实验 非常 有 利 。 

实验 历时 了 若干 周 。 这 可 能 成 为 结构 有 效 性 面临 的 最 大 威胁 。 然 而 ， 鉴 于 此 实验 
是 一 个 准 实验 ， 此 威胁 的 力度 有 所 降低 。 学 生 没有 机 会 在 教育 背景 上 造假 。 虽 然 已 经 
告诉 学 生 会 在 将 来 使 用 他 们 收集 的 数据 ， 但 没有 告诉 他 们 具体 使 用 方式 ， 因 此 ， 可 以 
不 受 他 们 偏好 的 影响 。 

在 分 析 阶 段 ， 由 于 有 6 个 学 生 没 有 跟随 实验 进程 提交 数据 ， 这 6 个 样本 数据 点 被 
移 除 。 另 有 3 个 数据 点 由 于 位 于 箱 形 图 延长 线 外 而 被 作为 离 群 点 进行 了 分 析 ， 其 中 只 
有 1 个 因为 严重 影响 标准 差 而 导致 实验 结果 偏差 被 移 除 。 


| 第 13 章 


Experimentation in Software Engineering 


视角 间 真 有 差异 吗 ? 
基于 场景 的 需求 文档 阅读 的 进一步 实验 











背景 ”本章 介 绍 了 一 篇 在 国际 期 刊 上 发 表 过 的 实验 研究 论文 。 此 外 ， 它 还 非常 适 
合作 为 实践 审阅 技术 的 研究 论文 。 应 该 注意 到 ， 这 篇 论文 被 期 刊 《 经 验 软件 工程 》 发 
表 之 前 已 经 通过 审 稿 并 根据 审 稿 意见 进行 了 修订 。 这 就 意味 着 ， 虽 然 一 般 论文 在 第 一 
次 发 表 后 也 会 通过 不 断 修 改 而 提高 水 平 ， 但 是 该 论文 的 质量 高 于 一 般 的 实验 论文 水 平 。 
如 何 评审 科学 论文 会 在 附录 A. 2 中 进行 详细 说 明 。 

摘要 ”基于 视角 的 阅读 (Perspective-Based Reading, PBR) 是 一 种 基于 场景 的 审 
查 技术 ， 多 个 评审 员 从 不 同 的 视角 (例如 ， 用户、 设计 人 员 、 测 试 人 员 ) 阅读 同一 篇 
文档 。 阅 读 是 根据 为 每 个 视角 特 设 的 一 个 场景 进行 的 。PBR 背后 的 基本 假设 是 ,不同 
的 视角 能 发 现 不 同 的 缺陷 ， 如 果 阅 读 量 相同 ， 组 合 多 个 视角 发 现 的 缺陷 比 单一 视角 发 
现 的 缺陷 更 多 。 这 篇 论文 分 析 了 各 种 视角 的 差异 ， 是 先前 研究 的 部 分 重复 。 实 验 在 一 
个 学 术 环境 中 进行 ， 使 用 研究 生 作 为 实验 主体 。 每 个 视角 都 应 用 了 特定 的 建 模 技 术 : 
用 户 视 角 采 用 了 案例 建 模 技术 ， 测 试 人 员 视 角 采 用 了 等 价 类 划分 方法 ， 设 计 人 员 视 角 
采用 了 结构 化 分 析 方 法 。 在 实验 中 ，30 个 实验 主体 被 划分 为 3 组， 即 每 个 视角 有 10 个 
实验 主体 。 分 析 结 果 表 明 : 三 个 视角 在 缺陷 检 出 率 和 每 小 时 发 现 的 缺陷 数 方面 并 无 显 
著 差 异 ; 三 个 视角 的 缺陷 覆盖 率 没有 显著 差异 ; 仿真 研究 表明 ， 采 用 所 选择 的 统计 检 
验方 法 ，30 个 主体 就 足够 发 现 相对 较 小 的 视角 差异 。 上 述 分 析 结 果 表 明 ， 组 合 多 种 视 
角 的 阅读 方法 相 比 于 单一 视角 的 阅读 方法 ， 可 能 并 不 会 有 更 高 的 缺陷 覆盖 率 。 但 是 ， 
在 未 来 仍然 有 必要 对 此 进行 进一步 研究 以 加 深 对 视角 差异 的 理解 。 


13.1 引言 


需求 文档 的 确认 常常 是 人 工 进 行 的 ， 这 是 因为 需求 文档 中 往往 包含 着 需要 一 个 期 
望 软件 系统 做 什么 的 非 规范 的 表达 。 审 查 是 一 种 由 Fagan 提出 的 、 常 见 的 用 于 软件 文 
档 的 人 工 确认 技术 [54 ] 。 审 查 技 术 可 以 采用 不 同 的 方式 实施 ， 并 且 可 以 在 整个 软件 
开发 过 程 中 使 用 ， 以 (1) 增进 理解 、(2) RRK, H G) 作为 决策 制定 的 依据 。 
审查 可 以 用 于 在 开发 过 程 早 期 发 现 缺陷 。 已 有 研究 表明 ， 该 技术 具有 显著 的 成 本 效益 
(参见 Doolan [45])。 





O 本 章 最 初 发 表 在 Empirical Software Engineering: An International Journal, Vol. 5, No. 4, pp. 331 - 356 
(2000) 。 








175 








[176] 


136 BARD FATRA 





审查 过 程 的 核心 部 分 是 缺陷 检测 (defect dection) ， 由 个 体 审查 者 阅读 文档 并 记录 
缺陷 (是 准备 的 一 部 分 ， 参见 Humphrey [81])。 自 由 检查 ( Ad Hoc) 、 检 查 单 和 基于 
场景 的 阅读 (Scenario-based reading) 是 三 种 常用 的 缺陷 检测 技术 。 自 由 检查 是 一 种 没 
有 提供 指导 的 非 结 构 化 技术 ， 即 评审 者 根据 他 们 的 个 人 知识 和 经 验 检测 缺陷 。 检 查 单 
则 提供 了 一 个 议题 和 问题 的 清单 ， 包 含 着 以 前 审查 的 知识 ， 试 图 帮助 评审 者 在 阅读 时 
聚焦 。 而 在 基于 场景 的 阅读 方法 中 ， 不 同 的 评审 者 具有 不 同 的 职责 ， 并 且 通 过 特定 的 
场景 指导 他 们 的 阅读 ; 同时 ， 在 阅读 时 要 构建 模型 ， 而 不 仅仅 是 被 动 地 阅读 。 

AY “SAE” (scenario) 指 的 是 评审 者 需要 遵从 的 脚本 或 程序 。 研 究 人 员 已 提 
出 了 两 种 基于 场景 的 阅读 方法 的 变 体 : 基于 缺陷 的 阅读 ( Defect-Based Reading, DBR) 
[137] 和 基于 视角 的 阅读 ( Perspective-Based Reading, PBR) [18]。 前 者 (后 文中 用 
DBR 指 代 ) 关注 特定 的 缺陷 类 别 ， 后 者 〈 后 文中 用 PBR 指 代 ) 关注 文档 使 用 者 的 
视角 。 

审查 过 程 的 另 一 个 任务 是 将 缺陷 汇编 成 一 个 统一 的 缺陷 列表 。 该 列表 汇编 了 所 
有 评审 者 发 现 的 缺陷 。 这 一 步骤 可 能 会 包括 移 除 误 报 的 缺陷 (将 不 是 缺陷 的 内 容 报 
告 为 缺陷 ) 和 发 现 新 的 缺陷 。 该 步骤 通常 在 由 一 组 评审 人 员 参 加 的 审查 会 议 中 进 
行 。 这 种 群 组 会 议 的 有 效 性 已 在 Votta [175], Johnson 和 Tjahjono [87] 的 文章 中 进 
行 了 研究 。 

这 篇 论文 描述 了 使 用 PBR 方法 进行 基于 场景 的 阅读 的 研究 。 该 文采 用 经 验 型 研究 
方法 ,论述 了 一 个 学 术 环 境 下 正式 的 析 因 实验 。 该 实验 是 此 领域 中 曾经 做 过 的 一 个 实 
验 的 部 分 重复 ， 其 关注 点 在 于 针对 PBR 中 视角 间 差 异 的 精 化 假设 。 该 论文 关注 于 个 体 
评审 者 的 缺陷 检测 ， 而 不 包含 有 关 群 组 会 议 的 部 分 。 

论文 的 结构 如 下 。13. 2 节 通 过 概述 以 前 做 过 的 使 用 基于 场景 阅读 的 方法 进行 需求 
审查 的 实验 结论 ， 给 出 了 一 个 相关 工作 的 综述 ; 13. 3 节 通 过 问题 陈述 给 出 了 本 文 的 研 
究 动机 ; 13. 4 节 介 绍 了 实验 计划 、 讨 论 了 实验 的 有 效 性 威胁 ; 13. 5 节 报 告 了 实验 的 操 
YE; 分 析 的 结果 在 13.6 节 中 给 出 ; 13.7 节 给 出 了 对 结果 的 解释 ; 13.8 节 是 总 结 和 
结论 。 


13.2 相关 工作 


现 有 的 关于 经 验 软件 工程 的 文献 包含 了 大 量 与 审查 相关 的 研究 。 正 式 实验 是 其 中 
一 种 相关 的 研究 策略 [178] 。 本 文中 论述 的 实验 与 先前 关于 使 用 基于 场景 方法 的 审查 
实验 相关 。 对 于 这 些 基于 场景 的 审查 实验 的 发 现 总 结 如 下 : 

(1) Maryland-95 研究 [137] 在 学 术 环 境 下 比较 了 DBR、 自 由 检查 和 检查 单 的 审 
查 效果 。 该 实验 执行 了 两 次 ， 每 次 有 24 个 实验 主体 参与 。 实 验 所 用 到 的 需求 文档 是 一 


日 这 里 有 术语 混 消 的 风险 ， 术 语 场景 〈scenario) 也 用 于 在 需求 工程 中 表示 待 开发 系统 的 设想 使 用 情景 中 的 
一 系列 事件 。 一 个 用 例 (use case) 通常 覆盖 一 组 相关 的 〈 系 统 使 用 ) 场景 。 但 在 基于 场景 的 阅读 中 ， 术 
语 场景 是 一 个 元 级 概念 ， 表 示 审 查 过 程 中 一 个 文档 的 阅读 者 应 该 遵从 的 程序 。 
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个 水 位 监测 系统 (WLMS, 24 页 ) 和 一 个 汽车 巡航 控制 系统 (CRUSE, 31 页 ) 的 
文档 。 

结果 1: 使 用 DBR 方法 的 评审 员 的 缺陷 检 出 率 显著 高 于 使 用 自由 检查 方法 和 检查 
单方 法 的 评审 员 。 

结果 2: 使 用 DBR 方法 的 评审 员 在 特定 类 型 缺陷 的 检 出 率 显著 高 于 其 他 两 种 方法 ; 
而 在 其 他 类 型 缺陷 的 检 出 率 方面 ， 与 其 他 两 种 方法 相同 。 这 些 特定 类 型 的 缺陷 是 指 场 
景 设计 针对 的 缺陷 。 

结果 3: 使 用 检查 单方 法 的 评审 员 的 缺陷 检 出 率 没有 显著 高 于 使 用 自由 检查 方法 
的 评审 员 。 

结果 4: 缺陷 收集 会 议 对 缺陷 检 出 率 没有 纯粹 的 提升 作用 一 一 会 议 产生 的 积极 效 
果 被 其 产生 的 消极 效果 抵消 。 

(2) NASA 研究 [18] 在 工业 环境 下 对 PBR 与 自由 检查 进行 了 比较 。 该 实验 由 两 
部 分 组 成 : 第 一 部 分 有 12 个 实验 主体 参加 ， 第 二 部 分 有 13 个 实验 主体 参加 。 实 验 中 
用 到 了 两 组 需求 文档 : 一 般 需 求 文档 和 NASA 需求 文档 。 一 般 需 求 文档 由 自动 取款 机 
文档 (ATM，17 页 ) 和 停车 场 控 制 系统 文档 (PG, 16 H) HR; NASA 需求 文档 是 
两 个 飞行 动力 学 需求 文档 (每 个 27 页 ) 。 

结果 1: 对 于 一 般 文档 ， 使 用 PBR 方法 的 个 体 的 缺陷 检 出 率 显著 高 于 使 用 自由 检 
查 方法 。 

结果 2: 对 于 NASA 类 文档 ,使 用 PBR 方法 的 个 体 的 缺陷 检 出 率 没 有 显著 高 于 使 
用 自由 检查 方法 。 

结果 3: 对 于 一 般 文档 ， 使 用 PBR 方法 的 模拟 团队 的 缺陷 检 出 率 显 著 高 于 使 用 自 
由 检查 方法 。 

结果 4: 对 于 NASA 类 文档 ,使 用 PBR 方法 的 模拟 团队 的 缺陷 检 出 率 显著 高 于 使 
用 自由 检查 方法 。 

结果 5: 经 验 多 的 评审 员 没 有 更 高 的 缺陷 检 出 率 。 

(3) Kaiserslautern 研究 [34] 在 学 术 环境 下 比较 了 PBR 方法 与 自由 检查 方法 ,使 
FAT NASA 研究 [18] 中 的 ATM 和 PG 文档 。 该 实验 执行 了 两 次 ， 分 别 有 25 个 实验 主 
体 和 26 个 实验 主体 参与 。 

结果 1: 对 于 一 般 文档 ， 使 用 PBR 方法 的 个 体 的 缺陷 检 出 率 显著 高 于 使 用 自由 检 
查 方法 。 

结果 2: 对 于 一 般 文档 ， 使 用 PBR 方法 的 模拟 团队 的 缺陷 检 出 率 显著 高 于 使 用 自 
由 检查 方法 。 

结果 3: 不 同 视 角 下 五 种 缺陷 类 别 的 缺陷 检 出 率 没有 显著 差异 。 

(4) Bari 研究 [61] 在 学 术 环 境 下 比较 了 DBR、 自 由 检查 和 检查 单 ， 使 用 了 Mary- 
land-95 研究 中 的 WLMS 和 CRUISE 文档 。 该 实验 执行 了 一 次 ， 有 30 个 实验 主体 参与 。 

结果 1: 相 较 于 自由 检查 和 检查 单方 法 ，DBR 方法 没有 显著 较 高 的 缺陷 检 出 率 。 
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结果 2: 使 用 DBR 方法 的 评审 员 对 特定 缺陷 的 缺陷 检 出 率 没有 显著 高 于 使 用 其 他 
两 种 方法 的 评审 员 ; 在 其 他 缺陷 的 缺陷 检 出 率 方面 ， 使 用 DBR 方法 与 其 他 两 种 方法 也 
相同 。 特 定 缺 陷 是 指 场景 设计 专门 针对 的 缺陷 。 

结果 3: 使 用 检查 单方 法 的 评审 员 的 缺陷 检 出 率 没 有 显著 高 于 使 用 自由 检查 方法 
的 评审 员 。 

结果 4: 缺陷 收集 会 议 对 缺陷 检 出 率 没有 纯粹 的 提升 作用 一 一 会 议 产 生 的 积极 效 
果 被 产生 的 消极 效果 所 抵消 。 

(5) Trondheim 研究 [164] 比较 了 NASA 研究 中 的 PBR 与 一 个 改进 的 PBR (以 下 
记 为 PBR2)。 在 PBR2 中 ， 为 评审 员 提 供 了 更 多 的 关于 如 何 进行 基于 视角 阅读 的 指导 。 
该 研究 在 学 术 环 境 下 进行 ， 使 用 NASA 研究 中 的 ATM 和 PG 文档 。 实 验 执 行 了 一 次 ， 
有 48 个 实验 主体 参与 。 

结果 1: 使 用 PBR2 方法 的 评审 员 的 缺陷 检 出 率 没 有 显著 高 于 使 用 PBR 方法 。 

结果 2: 使 用 PBR2 方法 的 个 体 评审 所 花费 的 时 间 显 著 长 于 使 用 PBR 方法 的 个 体 。 

结果 3: 使 用 PBR2 方法 的 个 体 提出 的 潜在 缺陷 数目 显著 少 于 使 用 PBR 方法 的 个 体 。 
结果 4: 使 用 PBR2 方法 的 个 体 的 生产 率 和 效率 显著 低 于 使 用 PBR 方法 的 个 体 。 

(6) Strathclyde 研究 [124] 在 学 术 环 境 下 比较 了 DBR 和 检查 单 ， 使 用 了 Mary- 
land 研究 中 的 WLMS 和 CRUISE 文档 。 该 实验 执行 了 一 次 ， 有 50 个 实验 主体 参与 。 

结果 1: 对 于 WLMS 文档 ，DBR 方法 的 缺陷 检 出 率 没 有 显著 高 于 检查 单方 法 。 

结果 2: 对 于 CRUISE 文档 ，DBR 方法 的 缺陷 检 出 率 显 著 高 于 检查 单方 法 。 

结果 3: 缺陷 收集 会 议 对 缺陷 检 出 率 没有 纯粹 的 提升 作用 一 一 会 议 产生 的 积极 效 
果 被 产生 的 消极 效果 抵消 。 

(7) Linköping 研究 [147] 在 学 术 环境 下 比较 了 DBR 方法 和 检查 单方 法 ,使 用 了 
Maryland 研究 中 的 WLMS 和 CRUISE 文档 。 总 缺陷 清单 中 加 入 了 更 多 的 缺陷 。 实 验 执 
行 了 一 次 ， 有 24 个 实验 主体 参与 。 

结果 1: 对 于 WLMS 文档 ， 使 用 DBR 方法 的 评审 员 的 缺陷 检 出 率 没 有 显著 高 于 使 
用 检查 单方 法 的 评审 员 。 

结果 2: 对 于 CRUISE 文档 ， 使 用 DBR 方法 的 评审 员 的 缺陷 检 出 率 没 有 显著 高 于 
使 用 检查 单方 法 的 评审 员 。 

(8) Maryland-98 研究 [152] 在 学 术 环境 下 比较 了 PBR 与 自由 检查 ， 使 用 了 Mar- 
yland 研究 中 的 ATM 和 PG 文档 。 该 实验 执行 了 一 次 ， 有 66 个 实验 主体 参与 。 

结果 1: 使 用 PBR 方法 的 评审 员 的 缺陷 检 出 率 显著 高 于 使 用 自由 检查 方法 的 评 
审 员 。 

结果 2: 经 验 丰富 的 个 体 使 用 PBR 方法 的 缺陷 检 出 率 没有 显著 9 高 于 使 用 自由 检 
查 方法 的 评审 员 。 


© Maryland-98 研究 的 结果 2 -4 的 显著 性 水 平 是 0. 10， 在 其 他 结果 中 的 显著 性 水 平 是 0. 05 。 
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结果 3: 经 验 中 等 的 个 体 使 用 PBR 方法 的 缺陷 检 出 率 显 著 高 于 使 用 自由 检查 方法 
的 评审 员 。 

结果 4: 经 验 较 少 的 个 体 使 用 PBR 方法 的 缺陷 检 出 率 显 著 高 于 使 用 自由 检查 方法 
的 评审 员 。 

结果 5: 使 用 PBR 方法 的 个 体 的 生产 率 显 著 低 于 使 用 自由 检查 方法 的 个 体 。 

(9) Lucent 研究 [138] 在 工业 环境 下 重复 了 Maryland-95 研究 。 该 研究 有 18 个 
Lucent 科技 的 专业 开发 人 员 参 与 。 此 次 重复 实验 是 成 功 的 ， 完 全 证 实 了 Maryland-95 研 
究 的 结果 。 

这 些 研 究 的 结果 有 很 大 不 同 。Hayes [74] 对 Maryland-9$ Bari, Strathclyde, 
Linképing 和 Lucent 研究 的 结果 进行 了 元 分 析 ， 试 图 对 这 些 实验 和 重复 实验 中 获得 的 知 
识 系统 地 进行 讨论 。 元 分 析 表 明 ， 审 查 方法 的 效果 在 不 同 实验 中 是 不 同 的 。Maryland- 
95 和 Lucent 研究 的 结果 最 为 相似 ， 元 分 析 指 出 了 将 这 两 个 研究 区 别 于 另外 三 个 研究 的 
特征 : (1) 这 两 个 研究 中 的 主体 对 使 用 的 表示 法 更 加 熟悉; (2) 这 两 个 研究 是 在 美国 
进行 的 ， 而 其 他 三 个 研究 是 在 欧洲 进行 的 ， 同 时 ， 汽 车 中 的 巡航 控制 在 美国 比 在 欧洲 
应 用 得 更 普遍 。 现 有 的 数据 不 可 能 检验 这 些 假设 ， 因 此 ， 还 需要 进行 更 多 实验 。 

#2 13-1 对 以 上 研究 进行 了 总 结 。Maryland-95 NASA, Kaiserslautern, 、Maryland-98 
和 Lucent 研究 表明 基于 场景 的 方法 有 更 高 的 缺陷 检 出 率 。 然 而 ，Bari 、Strathclyde 和 
Linköping 的 研究 却 不 能 印证 这 些 结果 ， 这 就 需要 进一步 的 研究 以 增加 对 基于 场景 阅读 
的 理解 。 


表 13-1 研究 总 结 
























































研 R 目 的 环 + 体 是 否 显著 

Maryland-95 DBR vs. 自由 检查 和 检查 单 学 术 24 +24 

Bari DBR vs 自由 检查 和 检查 单 | 学 术 30 A 
Strathclyde DBR vs. 检查 单 学 术 50 不 确定 
Linköping DBR vs. 检查 单 学 术 24 否 
Lucent DBR vs. 自由 检查 和 检查 单 工业 18 是 
NASA PBR vs. 自由 检查 工业 12 +13 是 
Kaiserslautern PBR vs. 自由 检查 学 术 25 +26 是 
Trondheim PBR vs. PBR2 下 学 术 48 否 
Maryland-98 PBR vs. 自由 检查 学 术 66 是 


以 上 很 多 研究 表明 ， 真 实 的 团队 会 议 在 缺陷 检测 方面 是 不 起 作用 的 。( 除了 缺陷 检 
测 之 外 ， 召 开 群 组 会 议 当 然 还 有 很 多 其 他 好 的 理由 ， 如 建立 共识 、 共 享 能 力 和 制定 决 
策 等 。) 

本 文 介 绍 的 研究 在 后 续 介 绍 中 用 Lund 研究 来 命名 。Lund 研究 是 NASA 研究 的 一 
个 部 分 重复 实验 。 它 基于 Maryland 大 学 提供 的 一 个 实验 包 ， 以 支持 基于 场景 阅读 的 经 
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验 型 研究 。Lund 研究 的 研究 动机 将 在 下 一 节 中 给 出 。 


13.3 研究 问题 


13. 2 节 对 之 前 的 研究 进行 了 总 结 ， 这 些 研 究 主 要 关注 于 从 缺陷 检 出 率 的 角度 比较 
基于 场景 阅读 、 检 查 单 与 自由 检查 技术 ; 而 Lund 研究 的 目标 是 研究 基于 场景 的 阅读 技 
术 背 后 的 基本 假设 “从 不 同 视 角 能 够 发 现 不 同 的 缺陷 ”是 和 否 成 立 。 本 研究 的 另 一 个 关 
注 点 在 于 不 同 视角 的 效率 ， 即 每 小 时 发 现 缺陷 数 。 因 此 ， 研 究 问 题 可 以 归结 如 下 : 

(1) 不 同 的 视角 能 否 检 出 不 同 的 缺陷 ? 

(2) 一 种 视角 是 否 会 比 男 一 种 视角 更 优越 ? 

优越 性 体现 在 两 方面 : 效果 (effectiveness) ， 即 现 有 缺陷 中 有 多 少 能 被 发 现 〈 检 
出 率 ) ; 效率 (effeciency) ， 即 单位 时 间 内 能 检 出 多 少 缺陷 。 

Basili 等 人 提出 的 视角 有 设计 人 员 、 测 试 人 员 和 用 户 视角 。 用 户 是 软件 开发 过 程 中 
重要 的 涉 众 ， 在 需求 抽取 、 分 析 和 文档 化 阶段 尤为 重要 。PBR 中 的 用 户 角色 关注 检测 
与 系统 使 用 相关 的 高 抽象 层次 的 缺陷 ,设计 人 员 则 关注 内 部 结构 中 存在 的 缺陷 ， 测 试 
人 员 则 关注 验证 阶段 中 存在 的 缺陷 。 

之 前 的 研究 主要 关注 从 缺陷 检 出 率 的 角度 评判 效果 。 对 软件 工程 师 而 言 ， 评 估 效 
率 〈 如 单位 时 间 检 出 的 缺陷 数 ) 也 很 重要 ， 因 为 这 个 因素 对 于 从 业者 决定 是 否 引进 一 
种 新 的 阅读 技术 至 关 重 要 。 具 体 的 项 目 约束 、 应 用 领域 约束 和 对 所 需 工 作 量 的 估计 都 
将 成 为 权衡 质量 和 成 本 的 依据 。 

PBR 的 一 个 主要 目标 是 通过 不 同 视角 检 出 不 同类 型 的 缺陷 ， 从 而 使 得 评审 者 之 
间 的 重复 工作 最 小 化 。 因 此 ， 自 然 就 产生 了 一 个 问题 ; 不 同 视角 的 评审 者 是 否 真 的 
能 够 发 现 不 同 的 缺陷 。 如 果 他 们 发 现 的 缺陷 相同 ， 则 无 法 最 小 化 重复 工作 ，PBR 的 
意图 也 就 没有 达到 。 如 果 所 有 的 视角 发 现 的 是 同样 类 型 的 缺陷 ， 可 能 的 原因 有 : 
(1) 基于 场景 的 阅读 方法 是 不 适合 的 ; (2) 与 它们 关联 的 场景 无 法 充分 支持 这 些 视 
角 ; 或 者 G) 还 需要 从 其 他 视角 分 析 以 获得 较 大 的 覆盖 差异 。 理 想 的 解决 方案 是 
使 用 无 重要 的 视角 和 缺陷 检 出 率 尽 可 能 高 的 视角 进行 审查 ， 以 使 得 PBR 方法 高 度 可 
HAX. Lund 研究 通过 调查 不 同 视 角 能 否 检 出 不 同 缺 陷 来 判断 这 些 视角 间 是 否 存 
EER, 

从 缺陷 内 容 估计 的 角度 看 ， 研 究 问题 1 也 是 值得 关注 的 。 用 于 进行 缺陷 内 容 估计 
的 捕获 -再 捕获 方法 (capture-recapture approach) 使 用 评审 者 发 现 的 缺陷 中 重 释 部 分 
的 多 少 来 估算 一 个 软件 产品 中 剩余 缺陷 的 数量 [51，120]。 为 了 研究 捕获 - 再 捕获 估 
算法 应 用 在 PBR 审查 中 的 效果 ，Thelin 和 Runeson [167] 研究 了 在 承认 PBR 的 前 提 假 
HT, Æ PBR 中 使 用 捕获 -再 捕获 方法 的 鲁 棒 性 。 在 Lund WAF, WAT PBR 的 前 
提 假 设 是 否 成 立 的 问题 。 因 此 ，Lund 研究 和 Thelin 与 Runeson 的 研究 [167] 互 为 补 
充 地 回答 了 捕获 -再 捕获 估算 法 是 否 可 以 用 于 PBR 审查 的 问题 。 
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13.4 实验 计划 


本 节 摘 述 了 阅读 实验 的 计划 。 计 划 包 括 独立 变量 和 非 独立 变量 的 定义 、 实 验 中 要 
检验 的 假设 、 实 验 设计 、 实 验 工具 以 及 对 实验 有 效 性 威胁 的 分 析 [178 ] 。 

阅读 实验 在 一 个 与 工业 环境 相近 的 学 术 环 境 中 进行 。 实 验 主体 是 Lund 大 学 CSE 
和 EE 就 读 硕 士 学 位 的 四 年 级 学 生 。 


13.4.1 变量 


独立 变量 决定 了 如 何 对 非 独立 变量 取样 。 实 验 的 目的 是 通过 在 两 个 实验 对 象 ( 需 
求 文档 ) 上 应 用 不 同 的 阅读 视角 和 审查 方法 ,研究 其 中 的 差异 。 审 查 对 象 与 Maryland 
大 学 实验 包 中 的 对 象 相同 ， 实 验 设计 和 工具 也 基于 这 个 实验 包 。 研 究 中 的 变量 如 表 13- 
2 所 示 ， 表 中 有 简短 的 解释 。 


表 13-2 变量 















































描述 
每 个 主体 使 用 其 中 的 一 个 视角 :用户 (U), ITAR 
PANE iie Meg (D) ,测试 人 员 (T) 
独立 变量 审查 对 象 是 两 个 需求 文档 ; 自动 取款 机 (ATM) 和 停 
Doc |ATM, PC} 车 场 控制 系统 (PG) 文档 。ATM 文档 有 17 页 包含 29 个 
缺陷 。PG 文档 有 16 页 包含 30 个 缺陷 
不 同 视角 的 实验 主体 经 验 值 采用 一 个 五 级 定 序 尺度 度 
控制 变量 EXPERIENCE 定 序 型 量 ， 在 分 配 主 体 视 角 时 使 用 ( 详 见 13.4.3 节 和 13.6.4 
节 ) 
每 个 评审 员 在 个 人 准备 阶段 花费 的 时 间 ， 由 实验 主体 记 
neS ii 录 。 时 间 单位 为 分 
每 个 评审 员 发 现 的 缺陷 数量 ， 不 包括 伪 真 值 。 为 了 保证 
对 所 有 的 候选 缺陷 是 平等 的 ， 实 验 人 员 去 除了 伪 真 型 缺陷 
非 独立 | aep G0 x DER/TIME |， 缺陷 发 现 速率 ， 即 每 小 时 发 现 的 缺陷 数 ， 按 (DEF x 
变量 60)/TIME 计算 
缺陷 发 现 效果 ， 即 发 现 的 缺陷 数量 与 总 缺陷 数量 的 比值 
ii T Tea (也 叫 缺陷 检 出 率 ) ， 由 DEF 除 以 已 知 的 缺陷 总 数 得 到 
m p 在 特定 文档 中 发 现 了 某 个 特定 缺陷 的 属于 某 个 视角 的 评 
审 员 的 数量 。 该 变量 用 于 分 析 不 同 视角 的 缺陷 发 现 分 布 
13. 4.2 假设 


基于 视角 的 阅读 方法 有 效 的 前 提 假 设 是 ， 由 于 不 同 的 评审 员 使 用 不 同 的 视角 阅读 ， 
使 得 发 现 的 缺陷 重复 更 少 从 而 能 更 有 效 地 审查 【18 ] 。 本 研究 的 目标 在 于 使 用 经 验 型 
方法 检验 该 假设 是 否 成 立 。 因 此 ， 与 不 同 视角 的 性 能 相关 的 假设 陈述 如 下 。 三 个 原 假 
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设 分 别 讨论 了 视角 的 效率 、 效 果 和 分 布 。 
© Ho arr: 假设 不 同 视角 有 相同 的 缺陷 发 现 效率 ， 即 不 同 视角 每 小 时 发 现 的 缺陷 
数 没 有 差异 。 
© Ho rare: 假设 不 同 视角 有 相同 的 效果 或 缺陷 检 出 率 ， 即 不 同 视角 发 现 的 缺陷 与 
总 缺陷 之 比 没有 差异 。 
© Ho rounn: 假设 不 同 视 角 发 现 的 缺陷 一 样 ， 即 不 同 视角 发 现 的 缺陷 分 布 是 相 
同 的 。 


13.4.3 实验 设计 
为 了 检验 这 些 假 设 ， 我 们 使 用 一 个 有 两 个 因素 (PERSP 和 DOC) 的 析 因 设计 实 








验 。 实 验 设计 如 表 13-3 所 示 。 实 验 针对 两 个 文档 和 三 个 视角 展开 。 
表 13-3 ”实验 设计 
a ff 
AP 设计 人 员 测试 人 员 
文档 ATM 5 5 5 


与 NASA 研究 [18] 相似 ， 实 验 主 体 的 视角 分 配 (U, D, T) 是 根据 实验 主体 报 
告 的 经 验 〈( 见 13. 6.4 节 ) 来 划分 的 。 这 种 基于 经 验 分 配 视角 的 方式 是 为 了 确保 每 个 视 
角 的 评审 员 经 验 分 布 均衡 ， 从 而 使 实验 的 输出 反映 不 同 视 角 的 影响 而 非 主体 经 验 的 影 
响 。 针 对 经 验 的 调查 问卷 需要 实验 主体 针对 他 们 在 每 个 视角 上 的 经 验 打 分 ， 分 为 5 个 
等 级 。 然 后 将 主体 进行 3 次 排序 ， 对 每 个 视角 给 出 一 个 有 序 表 ， 经 验 等 级 高 的 主体 排 
名 靠 前 ; 经 验 等 级 相同 的 主体 在 组 内 被 随机 排序 。 然 后 ， 按 照 以 下 规则 将 主体 分 配 到 
不 同 的 视角 : 从 3 个 视角 的 排序 序列 中 随机 选择 一 个 视角 的 排序 序列 作为 开始 ， 从 该 
视角 的 序列 顶端 选取 一 个 主体 ， 赋 予 该 视角 ， 并 将 此 主体 从 其 余 两 个 列表 中 去 除 ; 按 
照 轮转 法 ， 轮 流 选 择 下 一 个 视角 ， 并 依 此 循环 ， 直 到 所 有 的 主体 都 被 分 配 到 某 种 视角 
Fs 

阅读 实验 的 工具 包括 两 个 需求 文档 以 及 时 间 和 缺陷 的 报告 模板 。 实 验 工 具 源 于 
Maryland 大 学 的 实验 包 ， 并 在 重用 时 包含 尽 可 能 少 的 修改 。 

上 文 描述 的 析 因 设计 使 用 描述 统计 学 (柱状 图 和 箱 形 图 ) 进行 分 析 ， 对 假设 
Ho err #ll Ho rare 进行 方差 分 析 (ANOVA) [125]; 对 于 假设 Ho rouwp 使 用 卡 方 检验 
[157] 和 相关 性 分 析 [144]。 


13.4.4 ”有 效 性 威胁 


实验 结果 的 有 效 性 取决 于 实验 设置 中 的 因素 。 根 据 实验 目标 ,不 同类 型 的 有 效 性 
优先 级 不 同 。 在 本 案例 中 ， 我们 分 析 了 4 类 有 效 性 [37, 178]: 结论 有 效 性 、 内 部 有 
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效 性 、 结 构 有 效 性 和 外 部 有 效 性 。 

结论 有 效 性 (Conclusion validity) ”关注 结果 的 统计 分 析 和 主体 的 构成 。 本 实验 
中 采用 的 是 众所周知 的 统计 技术 ， 它 们 对 于 假设 的 违背 具有 和 鲁 棒 性 。 结 论 有 效 性 的 一 
个 普遍 威胁 是 样本 数量 少 。 样 本 数量 少 可 能 会 削弱 从 数据 中 揭示 模式 的 能 力 ， 特 别 是 
卡 方 检验 的 样本 很 少 ， 我 们 将 在 13. 6. 3 节 对 此 进行 详细 说 明 。 

内 部 有 效 性 (Internal validity) ”关注 不 包括 研究 人 员 的 知识 在 内 的 可 能 影响 涉及 
因果 关系 的 独立 变量 的 事项 。 本 实验 存在 两 种 内 部 有 效 性 威胁 : 选择 和 工具 。 本 实验 
是 软件 工程 课程 的 一 个 必修 环节 ， 因 此 主体 甄选 不 是 随机 的 ， 这 会 对 实验 的 有 效 性 产 
生 威 胁 。 所 使 用 的 需求 文档 也 可 能 会 影响 实验 结果 。 文 档 有 相当 的 缺陷 倾向 并 且 文 档 
中 的 其 他 问题 也 可 能 会 被 当 作 缺 陷 。 另 一 方面 ， 为 了 便于 比较 ， 本 实验 与 对 比 实验 最 
好 能 够 使 用 相同 的 缺陷 定义 。 其 他 因素 对 内 部 有 效 性 的 威胁 影响 都 很 小 。 由 于 实验 主 
体 只 对 一 个 对 象 采用 一 种 方案 进行 审查 ， 因 此 ， 不 存在 成 熟 风险 〈 即 实验 主体 针对 相 
同 实验 对 象 采用 多 种 方案 或 利用 同一 方案 对 多 个 实验 对 象 审查 时 ， 由 于 学 习 效 应 而 导 
致 结果 失 真 的 风险 ) 。 在 审查 期 间 ， 主 体 使 用 不 同 的 视角 ， 但 是 视角 间 的 差异 不 足以 大 
到 怀疑 不 同方 案 间 会 存在 补偿 平衡 或 补偿 竞争 。 同 时 ， 告 知 实验 主体 ， 他 们 的 课程 成 
绩 与 他 们 在 实验 中 的 表现 无 关 ， 只 取决 于 他 们 是 否认 真 地 参与 了 实验 。 但 这 样 一 来 ， 
就 存在 着 实验 主体 缺乏 积极 性 的 问题 。 例 如 ， 他 们 可 能 会 认为 参加 实验 是 浪费 时 间或 
者 学 习 技 术 的 积极 性 不 高 。 然 而 ， 主 导 实 验 课程 的 教师 已 经 采取 措施 尽力 激励 学 生 ， 
课程 明确 规定 认真 参与 实验 是 通过 课程 考核 的 必 备 条 件 。 课 程 教师 认为 学 生 在 审查 中 
都 很 认真 。 

结构 有 效 性 (Construct validity) ”关注 将 实验 结果 泛 化 为 实验 背后 的 概念 或 理论 
的 能 力 。 对 结构 有 效 性 的 一 个 主要 威胁 是 选择 的 视角 或 视角 的 阅读 技术 对 于 基于 场景 
的 阅读 来 说 可 能 不 具有 代表 性 或 者 不 好 。 这 限制 了 对 这 些 特定 的 视角 和 技术 做 出 结论 
的 适用 范围 。 其 他 因素 对 结构 有 效 性 的 威胁 影响 很 小 。 实 验 主体 不 知道 所 设 定 的 假设 ， 
并 且 没 有 参与 任何 关于 PBR 优点 和 缺点 的 讨论 ， 因 此 他 们 无 法 猜测 出 应 该 期 望 得 到 什 
么 结果 。 

外 部 有 效 性 (External validity) ”关注 于 将 实验 结果 类 推 到 此 次 实验 以 外 的 环境 
中 的 普遍 适应 性 。 对 外 部 有 效 性 最 大 的 威胁 是 使 用 学 生 作为 实验 主体 。 然 而 ,使 用 即 
将 完成 学 业 开始 工作 的 四 年 级 学 生 可 以 减轻 这 一 威胁 。 虽 然 实 验 设置 旨 在 使 实验 与 真 
实 的 审查 情景 类 似 , 但 是 实验 主体 参与 的 过 程 不 是 真实 软件 开发 项 目的 一 部 分 。 审 查 
对 和 象 也 力图 与 实际 项 目 一 致 ， 但 所 使 用 的 文档 仍然 相当 短 ， 真 正 的 软件 需求 文档 可 能 
会 包含 更 多 页 。 然 而 ， 由 于 审查 过 程 和 文档 与 真实 案例 非常 相似 ， 我 们 认为 实验 设置 
和 审查 对 象 对 外 部 有 效 性 的 威胁 是 有 限 的 。 

如 上 所 述 ， 实 验 中 存在 对 结构 有 效 性 、 内 部 有 效 性 和 外 部 有 效 性 的 威胁 ， 但 这 些 
威胁 在 先前 的 研究 也 同样 存在 。 因 此 只 要 实验 得 出 的 结论 没有 超出 这 些 威胁 的 限制 范 
围 ， 结 果 就 是 有 效 的 。 
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13.5 实验 操作 


本 实验 是 在 1998 年 春天 进行 的 。 每 个 学 生 参 与 了 一 个 2 小 时 的 入 门 课程 ， 讲 述 了 
研究 概览 和 缺陷 分 类 。 学 生 们 都 完成 了 关于 经 验 的 调查 问卷 ， 并 按照 13. 4. 3 节 所 述 ， 
为 每 个 学 生 即 实验 主体 分 配 了 一 个 特定 的 视角 。 同 时 通知 学 生 ， 实 验 是 课程 的 必修 部 
分 ,但 分 数 只 与 参与 实验 的 认真 程度 有 关 而 与 学 生 的 个 人 表现 无 关 ， 并 确保 学 生 的 匿 
名 性 。 

随后 ， 进 行 了 2 小 时 的 练习 。 在 练习 中 介绍 了 三 个 PBR 视角 并 且 用 一 个 视频 租赁 
系统 (VRS) 的 需求 文档 进行 了 例 示 。 在 练习 的 第 二 个 小 时 里 ， 实 验 主 体 从 各 自 的 视 
角 出 发 利用 VRS 需求 文档 练习 了 该 视角 的 阅读 技术 ， 其 间 如 有 疑问 可 以 提出 。 练 习 时 
也 对 数据 收集 表格 进行 了 解释 ， 并 在 练习 时 使 用 。 课 后 ， 学 生 们 自己 完成 了 VRS 文档 
的 基于 视角 的 阅读 。 

练习 时 分 发 了 实验 用 的 讲义 ， 包 括 以 下 指导 工具 。 

(1) 缺陷 分 类 : 用 缺陷 列表 的 方式 描述 缺陷 类 别 。 

(2) 时 间 记 录 日 志 : 记录 阅读 花费 的 时 间 。 

(3) 缺陷 表 : 记录 发 现 的 缺陷 。 

(4) 阅读 指南 : 分 别针 对 用 户 、 设 计 人 员 和 测试 人 员 视 角 设 计 的 阅读 指南 。 

(5) 建 模 表 格 : 分 别针 对 用 户 、 设 计 人 员 和 测试 人 员 视 角 设 计 的 建 模 表格 。 

(6) 需求 文档 : ATM 或 PG 的 需求 文档 。 

要 求学 生 不 讨论 ATM 或 PG 文档 ， 也 不 讨论 他 们 发 现 的 缺陷 。 在 真正 开始 数据 收 
集 前 ， 人 允许 他 们 基于 VRS 文档 讨论 PBR 视角 。 


13.6 数据 分 析 


本 节 展 示 了 针对 所 收集 数据 的 统计 分 析 。 数 据 来 源 于 实验 主体 提交 的 表格 。 每 个 
主体 的 缺陷 日 志 中 的 每 个 缺陷 都 与 Maryland 大 学 实验 包 中 提供 的 原始 “正确 ”的 缺陷 
表 进 行 了 比较 。 通 过 会 议 ， 作 者 们 对 每 个 缺陷 进行 了 探讨 以 判定 它 是 否 对 应 于 一 个 
“正确 ”的 缺陷 。 如 果 没 有 找到 相应 的 “正确 ”缺陷 ， 则 认为 报告 的 缺陷 是 伪 真 的 9 。 
同时 收集 了 报告 中 的 时 间 花 费 ， 并 且 计算 了 EFF. RATE 和 FOUND 测度 。 总 数据 集 
如 表 13-6 ~ 表 13-8 所 示 。 


13. 6.1 不 同 视 角 的 个 体 表 现 
个 体 表现 的 箱 形 图 号 如 图 13-1 所 示 ， 以 视角 PERP 和 文档 DOC 为 划分 ， 依 据 每 小 





© ”如果 Maryland 实验 室 包 中 的 缺陷 列表 不 完整 ， 一 些 被 标 为 伪 真 的 缺陷 可 能 是 真正 的 缺陷 。 但 从 重复 实验 
的 角度 看 ， 使 用 相同 的 “正确 ”缺陷 列表 很 重要 ， 因 此 ， 决 定 使 用 原始 的 “正确 ”缺陷 列表 。 而 由 于 只 
有 极 少 数 伪 真 的 缺陷 值得 质疑 ， 因 此 ， 认 为 这 个 决定 对 结果 没有 任何 显著 影响 。 

晶 ” 箱 形 图 中 矩形 的 高 度 位 置 分 别 对 应 数据 的 上 四 分 位 数 和 下 四 分 位 数 ， 和 矩形 中 部 的 线段 代表 中 位 数 。 上 下 
延长 线 的 端点 对 应 着 第 10 和 第 90 百 分 位 的 数值 大 小 。 
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时 发 现 的 缺陷 数 CEFF) 和 发 现 缺 陷 与 总 缺陷 之 比 〈RATE) 两 个 指标 绘制 。 


箱 形 图 
分 组 变量 : PERSP 
划分 标准 : DOC 


[o] ATM 
PG 


EFF 








箱 形 图 
分 组 变量 : PERSP 
划分 标准 : DOC 








[o] ATM 
PG 


RATE 
io 
n 


图 13-1 #% DOC 和 PERSP 划分 的 各 组 EFF 和 RATE 的 箱 形 图 


对 指标 EFF 而 言 ， 从 测试 人 员 视 角 审 查 PG 文档 得 到 的 EFF 均值 高 于 用 户 和 设计 
人 员 视 角 ; 但 对 于 ATM 文档 而 言 ， 设 计 人 员 视 角 获 得 的 EFF 均值 更 高 。 对 指标 RATE 
而 言 ， 在 审查 这 两 个 文档 时 ,设计 人 员 视 角 都 比 男 外 两 个 视角 有 更 高 的 RATE 均值 。 
但 由 于 每 组 中 的 数据 点 太 少 ， 无 法 根据 离 群 点 和 偏 度 对 箱 形 图 做 更 进一步 的 解释 。 

当 度 量 几 个 非 独 立 变量 时 ， 可 以 使 用 多 变量 方差 分 析 (MANOVA) 来 评估 均值 集 
合 中 是 否 存 在 统计 上 的 显著 差异 。 针 对 视角 效果 的 MANOVA 检验 能 够 表明 不 同 视角 效 
果 间 没有 显著 差异 ， 但 却 缺 少 对 交互 影响 的 分 析 。 此 外 ， 如 表 13-4 AZ 13-5 所 示 ， 
通过 ANOVA 方差 分 析 ，PERSP 变量 的 EFF. RATE 均值 均 无 显著 差异 。 这 些 分 析 表 
明 ， 对 于 三 个 视角 中 的 任何 一 个 视角 而 言 ，EFF 和 RATE 的 原 假设 都 不 能 被 拒绝 。 


表 13-4 EFF 的 ANOVA 方差 分 析 表 
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(2) 













Sum of Sq| Mean Sq | F-Value 
1.640 | 1.380 
1.114 | 0.937 
1. 189 








DOC 
PERSP * DOC 
Residual (#2) 


0. 193 
0. 187 















R 13-5 RATE 的 ANOVA 方差 分 析 表 














DF Sum of Sq| Mean Sq | F-Value p-value Lambda Power 
PERSP 2 | 0.012 | 0.006 | 0.802 | 0.4602 | 1.604 | 0.166 
DOC 1 0.011 0.011 | 1.488 | 0.2344 1. 488 0. 205 
PERSP * DOC 2 0. 004 0.002 | 0.259 0. 085 
Residual ( 残 差 ) 24 0.172 0.007 








13.6.2 不 同 视角 发 现 的 缺陷 


本 节 着 重 研究 关于 不 同 视角 发 现 的 缺陷 间 重 合 度 的 假设 Ho rounno 柱状 图 13-2 展 
示 了 其 描述 性 统计 量 。 对 于 每 个 文档 ， 每 个 视角 发 现 的 缺陷 数量 的 分 布 都 显示 在 图 中 。 
单元 柱状 图 


分 组 变量 : 缺陷 标识 DEFID 
划分 标准 : PERSP 








ATMDef01 三 
ATMDef02 
ATMDef03 
ATMDef04 
ATMDef05 
ATMDef06 == 
ATMDef07 
ATMDef08 
ATMDef09 
ATMDef10 == 
ATMDefll 
ATMDef12 == 
ATMDef13 
ATMDef14 
ATMDef15 
ATMDef16 
ATMDef17 == 
ATMDef18 二 二 
ATMDef19 == 
ATMDef20 Ese 
ATMDef21 
ATMDef22 全 一 
ATMDef23 
ATMDef24 
ATMDef25 
ATMDef26 
ATMDef27 
ATMDef28 aaa 
ATMDef29 Esa 








pmm 
CHO 





PGDef16 tw 
PGDef17 
PGDef19 
PGDef20 
PGDef25 
PGDef26 
PGDef27 
PGDef28 a 
PGDef29 | 
PGDef30 [u 


| 
a 
2 
a 
z 


PGDef04 
PGDef05 
PGDef07 
PGDef08 
PGDef13 
PGDef14 
PGDef15 


图 13-2 展示 发 现 每 个 缺陷 的 评审 者 数量 分 布 的 柱状 图 
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不 同 视角 的 分 布 看 起 来 没有 特定 的 模式 ; 每 个 视角 发 现 的 缺陷 都 相似 地 散布 于 缺陷 空 
间 中 。 如 果 不 同 视角 的 分 布 间 存在 大 的 差异 ， 则 柱状 图 中 会 出 现 一 些 缺 陷 组 : 对 于 某 
个 视角 而 言 ， 能 够 较 多 地 发 现 这 类 缺陷 ; 而 对 于 其 他 视角 而 言 ， 就 只 能 发 现 较 少 的 这 
类 缺陷 。 

为 了 比较 每 个 视角 所 发 现 缺陷 的 分 布 和 探究 不 同 视角 发 现 的 缺陷 是 否 存 在 显著 差 
Se, 我们 用 卡 方 检验 创建 了 一 个 列 联 表 ， 如 图 13-3 所 示 。 三 个 视角 都 没有 发 现 的 缺陷 
被 排除 在 列 联 表 之 外 〈 见 图 13-3 中 的 “包含 条 件 ”) ， 因 为 这 些 缺 陷 对 检验 差异 性 没 
有 帮助 。 

















DEFID,PERSP 汇 总 表 DEFID,PERSP 汇 总 表 
包含 条 件 : PG 数据 中 Counts>0 包含 条 件 : ATM 数 据 中 Counts>0 
Num.Missing Num.Missing 
DF DF 
Chi Square Chi Square 
Chi Square P-Value Chi Square P-Value 
G-Squard i G-Squared 
G-Squared P-Value i G-Squared P-Value 
Contingency Coef. ,494 Contingency Coef. 
Cramer’s V 402 Cramer’s V 
DEFID,PERSP 的 观测 频率 DEFID,PERS 的 观测 频率 
包含 条 件 : PG 数 据 中 Counts>0 包含 条 件 : ATM 数 据 中 Counts>0 















































PGDef01 5 ATMDef01 5 
PGDef02 9 ATMDef02 10 
PGDef03 4 ATMDef03 2 
PGDef04 2 ATMDef04 9 
PGDef05 7 ATMDef06 3 
PGDef06 7 ATMDef07 3 
PGDef07 2 ATMDef08 7 
PGDef08 12 ATMDef09 2 
PGDef09 8 ATMDef10 3 
PGDef10| 0 | 1 ATMDefll 6 
PGDefll| 2 | 6 ATMDef12 7 
PGDef12| 0 | 2 ATMDef13 5 
PGDef14 9 ATMDef15 3 
PGDef15 4 ATMDef16 7 
PGDef16 3 ATMDef17 2 
PGDef17 4 ATMDef18 2 
PGDef18 1 ATMDef19 4 
PGDef21 5 ATMDef20 3 
PGDef22 2 ATMDef22 1 
PGDef23 2 ATMDef23 2 
PGDef24 3 ATMDef26 2 
PGDef27 1 ATMDef27 4 
PGDef28| 1 | 3 ATMDef28 6 
PGDef30| O| 1 | 3 ATMDef29 6 
Totals 33 32 40 105 Totals 104 





13-3 每 个 文档 中 被 U、T、D 发 现 的 缺陷 的 卡 方 检验 和 列 联 表 
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卡 方 分 布 的 p 值 很 不 显著 ， 这 表明 用 这 种 检验 方法 和 这 些 数 据 集 无 法 展现 不 同 视 
角 发 现 的 缺陷 间 的 差异 。 文 [157，pp. 199 -200] 给 出 了 bi 
满足 的 前 提 条 件 ， 认 为 预期 频次 少 于 5 的 单元 格 不 多 于 20% 且 不 存在 预期 频次 少 于 
的 单元 格 时 可 以 使 用 卡 方 分 布 。 本 案例 中 的 数据 集 不 满足 这 些 前 提 条 件 ， eee 
提 条 件 也 可 能 太 苛 刻 。 因 为 本 案例 中 的 预期 频率 是 均匀 分 布 的 ， 卡 方 检验 可 能 依然 有 
效 (PERL 13.6.3 节 ) 。 

卡 方 检验 无 法 度量 差异 的 程度 。 为 了 分 析 视 角 间 的 差异 度 〈 或 相似 度 ) ， 需 要 使 
用 相关 性 分 析 (如 图 13-4 所 示 ) ， 使 用 皮尔 逊 (Pearson) eter [ 143, 
pp. 338 — 340], 


ATM 文 档 


inii 相关 性 pi 低 于 95% ”高 于 95% 
用 户 , 测试 人 员 738 

用 户 , 设计 人 员 
测试 人 员 ， 设计 人 员 

此 次 计算 中 有 29 个 观测 值 














相关 性 分 析 
包含 条 件 : ATM-ctable.data 中 User>0 或 Tester>0 或 Designer>0 


pl 低 于 95% ”高 于 95% 





























用 户 , 测试 人 员 [ 357 .0867 | 二 054 
aA 352 0915 | 059 

， 043 (8449 二 367 
此 次 计算 中 有 24 个 观测 值 hea 
PG 文档 
相关 性 分 析 相关 性 pii ” 低 于 95% ”高 于 95% 
用 户 , 测试 人 员 ,463 ,0092 | ,123 ,706 
用 户 , 设计 人 员 ,543 ,0016 ,228 ,756 
WAAR, 设计 人 员 ,601 ,0003 ,307 ,790 
此 次 计算 中 有 30 个 观测 值 
相关 性 分 析 


包含 条 件 : PG-ctable.data 中 User>0 或 Tester>0 或 Designer>0 


相关 性 pli ” 低 于 95% ”高 于 95% 





用 户 , 测试 人 员 ,319 | ,1300 -097 | ,640 | 
用 户 ,设计 人员 
测试 人 员 ， 设 计 人 员 493 
此 次 计算 中 有 24 个 观测 值 


图 13-4 每 个 文档 中 视角 的 相关 性 分 析 
对 每 个 文档 进行 了 两 种 不 同 的 相关 性 分 析 : 一 种 分 析 针 对 了 所 有 的 “正确 ” 缺 


陷 ， 男 一 种 分 析 只 针对 那些 被 至 少 一 个 评审 者 发 现 过 的 缺陷 。 我 们 认为 按照 后 者 分 析 
更 加 合适 ， 因 为 我 们 关注 的 是 分 析 不 同 视角 发 现 的 缺陷 集 间 的 差异 。 没 有 被 发 现 的 缺 
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陷 对 研究 视角 间 的 差异 没有 贡献 。 
p 值 表示 相关 系数 是 否 显 著 ， 置信 区 间 表 示 相 关系 数 可 能 的 区 间 。 


相关 性 分 析 表 明 各 视角 间 显 著 正 相关 ， 这 也 意味 着 当 一 个 视角 发 现 一 个 缺陷 时 ， 


其 他 视角 很 可 能 也 发 现 了 该 缺陷 。 只 有 审阅 ATM 文档 的 设计 人 员 和 测试 人 员 之 间 的 相 
关 性 不 显著 。 

男 一 种 定性 分 析 视 角 间 的 重合 性 的 方法 是 维 恩 图 (Venn-diagrams) ，NASA 研究 中 
使 用 了 该 方法 [18, p.151], 

为 了 比较 ,我 们 用 Lund 研究 的 数据 做 了 维 恩 图 ， 如 图 13-5 所 示 。 每 个 被 发 现 过 
的 缺陷 都 根据 其 被 哪些 视角 发 现 过 而 分 到 7 类 中 相应 的 一 类 中 。 维 恩 图 中 的 数值 表示 
每 类 中 有 多 少 个 缺陷 。 例 如 ， 对 于 PG 文档 ， 有 10 个 缺陷 是 三 个 视角 都 发 现 的 ， 有 5 
个 缺陷 被 用 户 视角 和 设计 人 员 视 角 发 现 ， 只 有 1 个 缺陷 是 仅 被 用 户 视角 发 现 的 。 


用 户 设计 人 员 用 户 BHAR 


测试 人 员 测试 人 员 
图 13-5 PG 和 ATM 文档 中 缺陷 覆盖 的 情况 


这 种 分 析 方 式 对 主体 数量 非常 敏感 。 很 可 能 ， 某 一 个 评审 员 发 现 某 一 个 缺陷 就 足 
以 改变 该 缺陷 所 属 的 分 类 。 一 个 缺陷 被 发 现 的 可 能 性 随 着 评审 员 数 量 的 增加 而 增长 ， 
并 且 如 果 评审 员 数 量 很 多 ， 很 可 能 所 有 的 缺陷 都 被 包含 在 被 所 有 视角 发 现 的 那 一 类 之 
中 。 这 意味 着 这 种 分 析 方 式 的 鲁 棒 性 不 强 ， 并 且 无 法 提供 对 一 般 案 例 的 有 意义 的 解释 。 
在 本 例 中 ， 我 们 至 少 可 以 说 ， 图 13-5 中 的 缺陷 覆盖 分 析 与 之 前 的 结果 不 矛盾 ， 即 我 们 
不 能 拒绝 原 假 设 : 不 同 视角 发 现 的 缺陷 集 是 相似 的 。 如 图 13-5 所 示 ， 被 3 个 视角 都 发 
现 的 缺陷 是 最 大 的 一 类 。 


13. 6.3 样本 空间 足够 大 吗 


Lund 研究 结果 表明 视角 间 没 有 显著 差异 ， 那 么 到 底 是 由 于 数据 缺乏 差异 还 是 统计 
检验 无 法 发 现 差 异 呢 ? 比如 ， 由 于 数据 的 数量 有 限 而 无 法 发 现 差 异 。 为 了 评估 卡 方 检 
验 结论 是 否 合理 ， 我 们 采用 随机 变化 法 来 模拟 不 同 视角 的 缺陷 检测 数据 ， 并 用 卡 方 检 
验 对 其 进行 检验 。 

模拟 模型 是 依照 之 前 章节 介绍 的 实验 设计 来 设计 的 。 不 同 仅 在 于 模拟 实验 中 某 个 
视角 检 出 某 种 缺陷 的 可 能 性 是 独立 变量 ; 同时 ， 由 于 没有 建 模 时 间 属 性 ， 非 独立 变量 
只 有 FOUND。 具 体 的 模型 设计 如 下 : 








。 每 个 模拟 文档 中 的 缺陷 数 是 30。 

。 对 每 次 模拟 审查 ， 每 个 视角 都 使 用 10 个 评审 员 。 假 定 一 个 文档 包含 三 种 不 同 
类 型 的 缺陷 ,不 同类 型 的 缺陷 被 检 出 的 概率 不 同 。 某 种 视角 能 高 概率 地 
(Pinch) 检 出 其 中 三 分 之 一 的 缺陷 ， 而 低 概率 地 (Piow) 检 出 另外 三 分 之 二 的 
缺陷 。Pycy 与 Piow 间 的 差 值 记 为 P\ 。 概 率 差 值 按 步 长 为 0.05 取 区 间 0. 05 到 
0.5 之 间 的 值 。 概 率 差 值 的 值 域 是 根据 Lund 研究 中 的 度量 均值 确定 的 。 

。 每 个 审查 模拟 1000 次 。 

使 用 卡 方 检验 来 检验 假设 Ho pounp， 结 果 如 图 13-6 所 示 。 每 次 模拟 实验 单独 检 

验 。 该 图 展示 了 每 个 模拟 案例 被 拒绝 的 检验 次 数 所 占 的 比例 。 对 于 所 有 PA 大 于 0.3 的 
模拟 案例 ， 该 检验 可 以 显著 地 展示 出 模拟 视角 间 的 差异 。 对 于 所 有 Pyecg 小 于 0.25 的 
模拟 案例 ， 如 果 Ps 大 于 0.2， 则 差异 性 就 展现 出 来 。 检 验 的 显著 性 水 平 是 0.05。 模 拟 
研究 表明 ， 即 使 视角 间 的 差异 很 小 且 样 本 空间 很 小 ， 卡 方 检验 也 可 以 发 现 FOUND 上 











的 差异 。 
模拟 卡 方 
100% , 一 - 
90% 
80% 
70% 
60% Pon 
x 60% -e- P=0,25 
50% 4 | ~ P=0,3 
x 40% =- P=0,35 
x- P=0,4 
30% —= P=0,45 
20% =- P=0,5 
10% 
0% 一 一 一 -一 : - 
0 0,05 0,1 0,15 0,2 0,25 0.3 0,35 0,4 0,45 
P; 
图 13-6 XF Ho, rouwp 显 著 性 检验 结果 的 片段 
13.6.4 主体 经 验 


通过 问卷 调查 来 度量 主体 的 经 验 。 该 问卷 调查 了 主体 在 一 般 意义 下 在 每 个 视角 
上 的 经 验 以 及 从 三 个 视角 使 用 特定 建 模 技术 (案例 建 模 、 等 价 类 划分 与 结构 化 分 
析 ) 的 经 验 。 对 这 两 种 经 验 均 采 用 5 级 定 序 尺度 度量 : 1 = 没有 经 验 ，2 = 在 课程 或 
书 中 学 过 ，3 = 在 课 笛 项 目 中 练习 过 ，4 = 在 工业 项 目 中 使 用 过 ，5 = 在 多 个 工业 项 目 
中 使 用 过 。 

图 13-7 展示 了 每 个 主体 在 其 所 分 配 的 视角 方面 所 具备 的 平均 经 验 ， 既 包括 一 般 经 
验 ， 也 包括 具备 特定 建 模 技术 的 经 验 。 
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平均 经 验 





U U D D T T 
一 般 特定 一 般 特定 一 般 特定 


图 13-7 主体 的 平均 经 验 ， 考 虑 到 对 视角 的 一 般 经 验 和 对 特定 建 模 技术 的 经 验 


可 以 看 出 ， 如 预期 的 一 样 ， 主 体 的 分 配 (依据 13.4.3 节 中 的 算法 描述 ) 可 以 使 各 
视角 的 经 验 相 对 均衡 。 还 必须 注意 到 ， 学 生 的 产业 实践 经 验 很 少 。 


13.7 结果 解释 


在 本 节 中 ， 我 们 将 根据 13. 4. 2 节 中 的 假设 对 数据 进行 分 析 解 读 。 前 两 个 假设 采用 
ANOVA 检验 ， 第 三 个 假设 采用 卡 方 检 验 。 以 下 三 个 原 假 设 都 不 能 被 拒绝 : 

© 页,srr 假 设 不 同 视角 每 小 时 发 现 的 缺陷 数 相 同 。 不 能 拒绝 此 假设 。 

© Ay mm 假设 不 同 视 角 发 现 的 缺陷 数 相同 。 不 能 拒绝 此 假设 。 

© Ay pounp 假 设 不 同 视角 发 现 的 缺陷 相同 。 不 能 拒绝 此 假设 。 

因此 ， 我 们 可 以 得 出 结论 : 三 个 视角 ( 用户、 设计 人 员 与 测试 人 员 ) 之 间 没 有 显 
著 差 异 。 这 对 于 以 上 三 个 假设 而 言 都 是 正确 的 ， 即 缺陷 发 现 的 效果 或 效率 间 均 无 显著 
差异 。 此 外 ， 不同 视角 审查 缺陷 时 所 花费 的 时 间 也 没有 显著 差异 ， 即 使 用 何 种 技术 并 
不 影响 缺陷 审查 所 需 的 时 间 。 如 果 上 述 结果 可 以 复制 和 泛 化 ， 那 么 不 同 视 角 间 的 差异 
缺乏 将 严重 影响 PBR 方法 存在 的 基础 。 由 于 PBR 方法 的 优势 就 在 于 假定 不 同 视角 关注 
不 同类 型 的 缺陷 ， 因 此 能 够 检 出 不 同 的 缺陷 集 。 但 本 研究 表明 ， 三 个 视角 发 现 的 缺陷 
集 之 间 并 无 统计 意义 上 的 显著 差异 ， 因 此 PBR 方法 的 优势 将 会 受到 质疑 。 

对 结果 的 结论 有 效 性 威胁 是 样本 数量 少 ， 尤 其 对 于 卡 方 检验 而 言 更 是 如 此 。 然 而 
模拟 实验 表明 : 对 30 个 根据 各 视角 进行 缺陷 审查 的 主体 而 言 ， 即 使 主体 间 缺 陷 发 现 概 
率 差 异 相 对 较 小 ， 卡 方 检验 也 可 以 发 现 该 差异 。 此 外 ， 不同 视角 所 发 现 的 缺陷 的 柱状 
图 (如 图 13-2 所 示 ) 也 没有 显示 任何 显著 的 模式 ， 这 也 从 另 一 个 角度 支持 了 上 述 无 显 
著 差 异 的 结果 。 在 可 接受 的 范围 内 的 ANOVA 统计 表明 ， 不 同 视角 之 间 也 没有 任何 显 
著 差异 。 当 我 们 试图 将 结果 泛 化 到 一 般 的 基于 场景 的 阅读 中 时 ， 特 定 视角 和 针对 该 视 
角 的 阅读 技术 可 能 会 对 结果 的 有 效 性 造成 威胁 。 

关于 主体 积极 性 的 有 效 性 威胁 可 以 通过 比较 Lund 研究 和 其 余 研 究 的 缺陷 检 出 率 来 
评估 。NASA 研究 [18] 中 预备 实验 和 主 实验 中 个 体 的 PBR 检 出 率 均值 分 别 为 0. 249 
和 0.321，Lund 研究 中 个 体 的 PBR 检 出 率 均值 为 0.252。 这 些 比 率 具有 可 比 性 ， 能 够 
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支持 NASA 研究 中 的 主体 和 本 研究 中 的 主体 同样 被 激励 的 假设 。 
根据 本 结论 的 特点 ， 没 有 考虑 13.4.4 节 中 提 到 的 其 他 对 于 有 效 性 产生 威胁 的 
因素 。 


13.8 总 结 和 结论 


本 研究 重点 关注 采用 基于 视角 阅读 的 方法 (PBR) 审查 需求 文档 ， 利 用 Maryland 
大 学 [19] 的 实验 包 在 学 术 环 境 中 进行 ， 是 对 之 前 实验 的 部 分 复制 。 

研究 目标 包含 如 下 两 个 方面 : 

(1) 在 效果 (缺陷 检 出 率 ) 和 效率 〈 每 小 时 发 现 缺陷 数 ) 方面 探究 不 同 视角 的 性 
能 差异 。 

(2) 探究 不 同 视角 间 缺 陷 覆 盖 率 的 差异 ， 并 评估 PBR 的 基本 假设 : 不 同 视角 能 发 
现 不 同 缺陷 。 

实验 设置 包括 两 个 需求 文档 和 为 三 个 视角 设置 的 场景 ( 用户 使 用 案例 建 模 ， 设 计 
人 员 使 用 结构 化 分 析 ， 测 试 人 员 使 用 等 价 类 划分 )。 总 共有 30 个 理科 硕士 生 被 分 成 3 
组 、 每 10 个 主体 一 个 视角 参与 了 实验 。 

数据 分 析 结果 总 结 如 下 : 

(1) 在 缺陷 检 出 率 、 每 小 时 发 现 的 缺陷 数 方面 ， 用 户 、 测 试 人 员 、 设 计 人 员 三 个 
视角 间 没 有 显著 差异 。 

(2) 三 个 视角 间 所 检 出 的 缺陷 覆盖 率 没 有 显著 差异 。 

对 这 些 结果 的 解释 表明 : 与 单 视角 的 阅读 审查 相 比 ， 多 视角 组 合 的 阅读 可 能 并 不 
具备 更 高 的 缺陷 覆盖 率 。 

这 些 结果 与 PBR 的 主要 假设 矛盾 。13. 2 节 中 总 结 的 一 些 已 有 研究 结果 表明 ， 基 于 
场景 的 阅读 和 自由 检查 相 比 有 显著 优势 ， 但 目前 还 没有 研究 对 不 同 视角 间 的 性 能 差异 
进行 统计 分 析 。 此 外 ，13. 2 节 中 的 已 有 研究 也 没有 关注 效率 (每 小 时 发 现 的 缺陷 数 ) ， 
而 只 是 专注 于 将 缺陷 检 出 率 作为 主要 的 非 独立 变量 来 研究 。 从 软件 工程 的 视角 来 看 ， 
一 个 方法 的 花费 和 效率 都 应 该 是 核心 关注 点 ， 因 此 ， 不 仅 要 研究 PBR 的 缺陷 检 出 率 ， 
还 要 研究 其 在 条 件 有 限时 是 否 能 够 很 好 地 执行 。 

还 有 一 些 对 结果 有 效 性 的 威胁 ， 包括 : 

(1) 实验 设置 可 能 不 现实 。 

(2) 视角 可 能 不 是 最 佳 的 。 

(3) 实验 主体 可 能 积极 性 不 高 或 训练 不 足 。 

(4) 主体 的 数量 可 能 过 少 。 

基于 以 下 理由 ， 我 们 认为 对 有 效 性 的 威胁 是 可 控 的 : (1) 审查 对 象 与 工业 需求 文 
档 相 似 ; (2) 这 些 视 角 是 从 软件 工程 过 程 的 角度 选取 的 ; (3) 实验 主体 是 大 学 四 年 级 
学 生 ， 这 些 学 生 对 软件 工程 感 兴趣 并 且 基 于 自身 兴趣 参与 了 这 门 选修 课程 ; 另外， 许 
多 公司 有 很 大 一 部 分 员工 是 新 人 职 的 〈 即 大 学 四 年 级 学 生 与 公司 新 进 的 员工 本 质 差异 
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AA) ; (4) 模拟 研究 表明 ， 用 选 定 的 分 析 方 法 分 析 给 定 的 等 量 数据 ， 能 够 发 现 视角 
间 相 当 微 小 的 差异 。 

像 这 样 的 一 个 单一 实验 ， 还 不 足以 改变 人 们 对 PBR 的 看 法 。 对 已 有 的 实验 数据 进 
行 同样 的 分 析 和 以 评估 视角 间 的 差异 为 目的 进行 重复 实验 ， 可 以 使 PBR 技术 的 优点 和 
缺点 更 清晰 明了 ， 也 可 以 更 好 地 控制 有 效 性 威胁 。 [196 | 


13.9 个 体 表现 数据 


表 13-6 每 个 主体 的 数据 







































































































































































U 
2 D 
3 * 
4 U 
5 D 
6 T 
7 U 
8 D 
9 T 
10 U 
11 D 
12 T 
13 U 
14 D 
15 T 
16 U 
17 D 
18 T 
19 U 
20 D 
21 T 
22 U 
23 D 
24 T 
25 U 
26 D 7 
27 T 8 
28 U 5 
29 D 8 
30 T PG 150 5 2. 000 0. 167 107 
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只 D#(0) 
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D#(1) 或 没有 发 现 的 缺陷 标 


识 





























设计 人 员 视 角 










































































测试 人 员 视 角 
































MAMAA ZFS? 基于 场 爱 的 需 天 艾 档 赔 谋 的 进一步 笑 验 
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13. 10.2 文档 ATM 


个 体 阅读 文档 ATM 所 发 现 的 缺陷 标 


表 13-8 
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附录 A | 


Experimentation in Software Engineering 


练 习 





不 同类 型 的 练习 说 明 可 以 在 前 言 中 找到 。 总 之 ， 本 书 的 目标 在 于 提供 四 种 类 型 的 
练习 。 

理解 型 练习 : 这 种 练习 旨 在 突出 每 一 章 中 最 重要 的 问题 。 如 第 1- 11 章节 中 的 
练习 。 

训练 型 练习 : 这 种 练习 的 目的 在 于 鼓励 实践 实验 ， 包 括 设置 假设 和 进行 统计 分 析 。 

回顾 型 练习 : 第 12 章 与 第 13 章 提供 了 实验 示例 。 这 部 分 的 目的 在 于 帮助 读者 回 
顾 与 阅读 已 发 布 的 实验 。 

任务 型 练习 : 这 些 练习 是 为 了 加 深 对 如 何在 软件 工程 中 使 用 实验 来 评价 方法 和 技 
术 的 理解 而 设置 的 。 

理解 型 的 习题 在 每 章 结尾 处 都 能 找到 ， 而 其 他 三 种 类 型 的 练习 可 以 在 此 附录 中 
找到 。 





A.1 训练 


可 以 使 用 统计 学 程序 包 或 者 统计 学 书 中 的 表 完 成 练习 。 也 可 以 使 用 附录 B 中 的 表 
格 进行 训练 ， 但 是 表格 中 的 数据 只 能 在 显著 性 水 平 为 5% 时 使 用 ， 如 果 使 用 了 其 他 的 
显著 性 水 平 ， 那 么 必须 使 用 其 他 资源 。 应 该 注意 的 是 ， 附 录 B 主要 是 为 第 10 章 中 的 例 
子 提供 解释 所 用 。 


A. 1.1 正 态 分 布 数据 


第 10 章 所 用 到 的 统计 方法 中 最 复杂 的 是 正 态 分 布 的 拟 合 优 度 检 验 ， 参 见 10. 2. 12 
节 。 为 了 确保 能 够 正确 使 用 该 方法 ， 请 完成 如 下 练习 : 
1. 参考 表 10-20， 在 相同 的 数据 集 上 将 数据 分 为 12 段 进行 拟 合 优 度 检验 。 


A. 1.2 实践 


在 第 12 FE, 根据 选修 PSP 课程 学 生 的 背景 对 PSP 课程 的 结果 进行 了 比较 。 在 第 
12 章 中 介绍 的 只 是 部 分 分 析 ， 完 整 的 数据 集 将 会 在 表 A-2 和 表 A-3 中 提供 。 表 A-1 展 
示 了 第 一 节 课 发 放 的 调查 问卷 ， 表 A-2 展示 了 调查 结果 。 在 表 A-3 中 ,通过 以 下 7 个 
方面 对 课程 产 出 进行 了 度量 : 

© 规模 (Size): 10 个 程序 中 新 增 或 修改 的 代码 行 数 。 

e 时 间 (Time): 10 个 程序 的 总 的 开发 时 间 。 

o 生产 率 (Prod. ) : 每 小 时 开发 的 代码 行 数 。 
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e 错误 (Faults); 10 个 程序 中 标记 的 出 错 数 ， 即 所 有 找到 的 错误 数 ， 包 括 编译 错 
误 。 

。 错误 /每 千 行 (Faults/KLOC) : 每 千 行 代码 出 现 的 错误 数 。 

© 预期 规模 (Pred. Size): 预期 程序 规模 的 相对 误差 的 绝对 值 。 例 如 ， 对 程序 规 
模 的 预 估 无 论 是 高 估 20% 还 是 低估 20% , 都 用 20% 表 示 ， 没 有 任何 指示 符 表明 估计 误 
差 的 方向 。 

e 预期 时 间 (Pred. Time): 预期 开发 时 间 的 相对 误差 的 绝对 值 。 


表 A-1 学 生 特征 










aA 
学 习 计划 (H Line 表示 ) 


描 ik 





答案 : CSE nt EE 










1. 很 少 ， 但 对 新 课程 很 好 奇 
2. 不 是 我 的 专长 (专注 于 其 他 科目 ) 
3. 至 少 在 其 中 某 一 方面 相当 不 错 ， 但 不 是 我 的 主要 精力 
所 在 
4. 我 的 研究 重点 


对 计算 机 科学 和 软件 工 
程 方面 的 一 般 知 识 ( 用 SE 
表示 ) 





.只 参加 过 12 门 课程 学 习 

. 参加 过 3 门 或 更 多 门 课程 学 习 ， 但 没有 任何 行业 经 验 
. 参加 过 少数 课程 学 习 ， 具 备 一 些 行业 经 验 

. 参加 过 超过 三 门 课程 学 习 ， 并 有 1 年 以 上 的 行业 经 验 


程序 设计 方面 的 一 般 知 识 
(用 Prog. 表示 ) 





A 已 一 








. 这 是 什么 ? 

. 我 曾经 听 说 过 

. 大 致 了 解 

. 我 读 过 一 些 相关 材料 


PSP 方面 的 知识 (用 PSP 
表示 ) 


AeA U Nm 





,没有 任何 先 验 知识 

. 读 过 一 本 书 或 参加 过 课程 学 习 
. 有 一 些 行业 经 验 ( 少 于 6 个 月 ) 
. 有 行业 经 验 


C 语言 知识 (M CRR) 


WN 一 





. 没有 任何 先 验 知识 

读 过 一 本 书 或 参加 过 课程 学 习 
.有 一 些 行业 经 验 〈 少 于 6 个 月 ) 
. 有 行业 经 验 


C+ + 语言 知识 (用 C++ 
表示 ) 


fF WN 








提供 一 组 课程 列表 ， 要 求学 生根 据 他 们 是 否 学 过 该 课程 而 
回答 yes 或 no。 此外， 要 求 他 们 根据 他 们 曾经 阅读 过 的 、 与 
某 特定 课程 相关 的 读物 ， 补 充 课 程 清单 


课程 数量 (用 Courses 表 
示 ) 











根据 第 12 章 中 的 表述 和 表 A-2 和 表 A-3 中 的 数据 ， 回 答 以 下 问题 : 
L 如 何 改进 调查 问卷 ? 想 一 想 ， 如 何 很 好 地 度量 背景 、 经 验 和 能 力 。 
2. 根据 已 有 数据 ， 参 考 第 12 章 中 的 已 有 假设 定义 一 些 新 的 假设 ,并 阐明 定义 这 
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些 假 设 的 动机 。 


3. 使 用 的 是 什么 类 型 的 抽样 技术 ? 
4. 分 析 你 定义 的 假设 ， 结 果 如 何 ? 
5. 讨论 你 的 发 现 的 外 部 有 效 性 。 这 些 结果 能 够 泛 化 到 PSP 课程 之 外 么 ? 这 些 结 
能 够 泛 化 到 工业 界 的 软件 工程 师 么 ? 


表 A-2 背景 问卷 调查 的 相关 信息 
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Subject Line SE Prog. PSP C++ Courses 
| cee 
1 1 2 1 2 1 2 
2 1 3 2 1 
3 2 3 2 2 
4 1 3 2 3 
5 1 3 2 3 
6 2 4 3 2 
7 2 3 2 2 
8 1 3 2 2 
9 2 4 3 2 
10 2 4 2 1 
11 1 2 2 1 
12 2 a 3 2 
13 2 4 3 2 
14 2 3 | 2 2 
15 1 3 2 2 
16 2 4 2 1 1 
17 1 3 3 1 1 
18 2 4 5 Z 3 6 
19 2 4 3 3 3 8 
20 1 1 1 1 1 
21 2 3 3 2 2 10 
22 2 3 2 3 1 5 
23 1 3 2 2 1 4 
24 1 2 1 1 3 
25 2 4 3 1 7 
26 1 3 2 | oa 5 
27 2 4 3 2 rj 
28 1 3 2 3 1 2 
29 2 4 2 3 1 7 
30 2 3 3 1 3 6 
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Pred. time 
39.7 20. 2 
2 1249 3799 19.7 56 44.8 | 44.1 21.2 
3 968 1680 34. 6 71 73.3 | 29.1 25.1 
4 996 4357 13.7 35 35;.1 | 24.3 18.0 
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162 K 
( 续 ) 
Subject Size Time Prod. Faults Faults/KLOC | Pred. size Pred. time 

5 794 2011 23:;7 32 40.3 26. 0 13.2 
6 849 2505 20. 3 26 30. 6 61.1 48.2 
7 1455 4017 21.7 118 81.1 36.5 34.7 
8 1177 2673 26.4 61 51.8 34.6 32.5 
9 747 1552 28.9 41 54.9 51.0 18.2 
10 1107 2479 26. 8 59 53.3 22.6 14.0 
11 729 3449 12.7 27 37.0 26.9 52.0 
12 999 3105 19.3 63 63.1 26.0 | 19.8 
13 881 2224 23.8 44 49.9 47.9 39.9 
14 730 2395 18.3 94 128.8 63.0 20. 3 
15 1145 3632 | 48. 9 70 61.1 33.3 34.8 
16 1803 3193 33.9 | 21.8 
17 800 2702 17.8 60 26. 7 
18 1042 2089 29.9 64 41.5 
19 | 918 3648 15. 1 43 TLS 
20 1115 22.4 
21 890 34.8 
22 1038 52.0 
23 1251 34. 1 
24 623 36.3 
25 1319 45.0 
26 800 36.2 
27 1267 30. 1 
28 945 17.9 
29 724 17. 8 
30 1131 15.5 
31 1021 25.0 
32 840 .6 54.0 
33 985 .0 3 31.0 
34 590 -9 -0 20. 0 
35 727 . 0 .0 221 
36 955 -6 :3 36.8 
37 803 yf kA ZRT 
38 684 .9 .0 34. 1 
39 913 4188 13. 1 45 49.3 25.3 27.5 
40 1200 1827 39. 4 61 50. 8 31.6 20.9 















































































































Subject Faults Faults/KLOC | Pred. size Pred. time 
41 894 2777 19.3 64 71.6 21.3 22.4 
42 1545 3281 28. 3 136 88.0 35.0 16. 1 
43 995 2806 21.3 71 71.4 15.6 38. 3 
44 807 2464 19.7 65 80.5 43.3 26. 4 
45 1078 2462 26. 3 55 51.0 49.1 | 51.6 
46 944 3154 18.0 71 TS. 2 59.0 39.2 
47 868 1564 33.3 50 57.6 50. 4 45.2 
48 701 3188 13.2 31 44.2 21.2 49.7 
49 1107 4823 13.8 86 Wet 19.3 28.4 
50 1535 2938 31.3 71 46. 3 29.6 20.7 
51 858 7163 7.2 97 113.1 58. 4 32:9 
52 832 2033 24.6 84 101.0 48.4 25.6 
53 975 18.5 115 117.9 29.5 31.5 
54 715 12.9 40 55.9 41.7 26. 6 
55 947 4583 12.4 99 104. 5 41.0 22.3 
56 926 2924 19.0 TT 83.2 32.5 34.7 
S7 711 78 109. 7 22.8 14.3 
58 1283 186 145. 0 46.5 26. 6 

54 42.8 27.4 45.3 


























A. 1.3 程序 设计 


在 一 次 实验 中 ，20 个 程序 员 编写 同一 个 程序 ， 其 中 10 人 使 用 语言 A， 另 外 10 人 
使 用 语言 B。 与 B 语言 相 比 ，A 语言 是 新 采用 的 语言 。 公 司 计划 通过 实验 来 判定 语言 
A、B 的 优 劣 ， 如 果 A 语言 优 于 B 语言 ， 则 以 后 公司 将 转 而 使 用 A 语言 。 在 开发 的 过 
程 中 ， 对 程序 大 小 、 开 发 时 间 、 所 有 移 除 的 缺陷 总 数 以 及 测试 中 移 除 的 缺陷 数 等 进行 
记录 、 度 量 。 

为 20 个 程序 员 随 机 分 配 一 种 编程 语言 ， 评 估 语 言 是 否 会 对 4 种 度量 变量 有 影响 。 
收集 的 数据 (这些 数据 都 是 虚构 的 ) 如 表 A-4 所 示 。 

1. 本 实验 使 用 的 是 哪 种 实验 设计 ? 

2. 为 评估 定义 假设 。 

3. 使 用 箱 形 图 根据 四 种 因素 的 居中 趋势 和 离散 程度 调查 语言 之 间 的 差异 。 是 否 存 
在 离 群 点 ， 如 果 有 ， 是 否 应 该 被 移 除 ? 

4. 假设 可 以 使 用 参数 检验 ， 评 估 编 程 语言 对 四 个 度量 变量 的 影响 。 可 以 从 分 析 结 
果 中 得 出 什么 结论 ? 

5. 使 用 非 参数 检验 评估 编程 语言 对 四 个 度量 变量 的 影响 。 可 以 从 分 析 结果 中 得 出 
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什么 结论 ?” 同 使 用 参数 检验 的 结果 进行 比较 。 

6. 讨论 结果 的 有 效 性 ， 并 讨论 使 用 参数 检验 是 否 恰当 。 

7. 如 果 参 与 的 程序 员 是 自己 选择 的 编程 语言 ， 那 么 会 对 结果 的 有 效 性 产生 什么 影 
响 ? 结论 仍然 成 立 吗 ? 


表 A-4 编程 练习 的 数据 











程序 大 小 (LOC) 开发 时 间 (分 ) 测试 缺陷 数 






















































































A 1408 3949 23 
A 1529 2061 16 
A 946 3869 41 
A 1141 5562 271 55 
A 696 5028 103 39 
A TIS 2296 75 29 
A 1205 2980 79 11 
A | 1159 194 28 
A 862 67 27 
A 1206 771 15 
B 1316 68 20 
B 1787 54 10 
B 1105 130 23 
B 1583 48 13 
B 1381 133 29 
B 944 80 25 
B 1492 4901 64 21 
B 1217 3897 89 29 
B 936 3825 57 20 
B 1441 4015 79 18 
A. 1.4 设计 


本 练习 的 数据 来 源 于 Briand, Bunse 和 Daly 所 做 的 实验 ， 而 后 ，Briand 等 人 对 该 
实验 进行 了 进一步 的 描述 [28]。 

为 了 评估 在 对 已 有 设计 进行 修改 时 使 用 定性 的 面向 对 象 设计 原则 的 影响 ,设计 了 
本 实验 。 评 估 的 定性 设计 原则 是 由 Coad 和 Yourdon [35] 提供 的 。 在 实验 中 ， 使 用 两 
种 不 同 的 设计 方法 分 别 对 两 个 系统 进行 设计 。 其 中 , “好 的 ”设计 方法 是 指 遵 循 了 相 
关 原 则 的 设计 方法 ， 而“ 坏 的 ”设计 方法 是 指 没有 遵循 相关 设计 原则 的 设计 方法 。 采 
用 相同 的 方式 将 两 种 设计 的 布局 和 内 容 记 录 下 来 ， 并 尽 可 能 使 记录 的 规模 相同 ， 即 除 
了 在 是 否 遵 循 原则 方面 不 同 之 外 ， 采 用 尽 可 能 相似 的 方法 进行 设计 。 实 验 目 的 是 评价 
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在 识别 出 设计 中 的 变化 后 ， 质 量 设计 原则 能 否 使 变更 影响 分 析 更 容易 。 

每 个 参与 者 的 任务 是 进行 两 次 独立 的 变更 影响 分 析 ， 即 对 每 个 系统 设计 各 做 一 次 
变更 影响 分 析 。 通 过 在 设计 中 标记 所 有 必须 修改 的 地 方 来 完成 ， 但 并 不 真正 地 进行 修 
改 。 第 一 个 变更 影响 分 析 任 务 是 分 析 客 户 需求 变化 的 影响 ; 第 二 个 变更 影响 分 析 任 务 
是 分 析 系统 功能 增强 的 影响 。 在 实验 中 ， 收 集 以 下 四 方面 的 度量 值 : 

Mod_ Time: 识别 需要 进行 修改 的 地 方 所 花费 的 时 间 。 

Mod_ Comp: 影响 分 析 的 完整 程度 ， 其 具体 定义 如 下 : 

Moc_ Comp = 找到 的 正确 的 位 置 数 
应 该 找到 的 总 位 置 数 

Mod_ Corr: 影响 分 析 的 正确 程度 ， 其 具体 定义 如 下 : 

找到 的 正确 的 位 置 数 








Moc_ Corr = 





标记 的 总 的 位 置 数 

Mod_ Rate: 单位 时 间 找到 的 正确 的 位 置 数 ， 即 ; 
”找到 的 正确 的 位 置 数 
Moc_ Rate = 识别 所 用 的 总 时 间 


为 了 让 每 个 参与 者 对 好 设计 和 坏 设计 分 别 进 行 影响 分 析 ， 实 验 分 两 次 进行 。 受 试 [204 
者 被 随机 分 为 两 组 : A ALB. A 组 先 分 析 好 设计 、 再 分 析 坏 设计 ; B 组 先 分 析 坏 |210 
设计 ， 再 分 析 好 设计 。 收 集 的 数据 见 表 A-5。 回 答 以 下 问题 : 

1. 实验 中 用 到 了 哪 一 种 实验 设计 ? 

2. 定义 评估 的 假设 。 

3. 如 何 处 理 表 A-5 中 缺失 的 数据 。 

4. 假设 使 用 参数 检验 方法 ， 评 估 质 量 设计 原则 对 四 个 被 测 变 量 的 影响 。 从 结果 中 
能 够 推断 出 哪些 结论 ? 

5. 采用 非 参 数 检验 方法 评估 质量 设计 原则 对 四 个 待 测 变量 的 影响 。 从 结果 中 能 够 
推断 出 哪些 结论 ? 与 参数 检验 得 出 的 结论 进行 比较 。 

6. 如 果 使 用 参数 检验 是 合适 的 ， 讨 论 结果 的 有 效 性 。 

7. 实验 的 参与 者 都 是 学 生 ， 并 且 都 是 上 过 软件 工程 课程 的 志愿 者 。 那 么 ， 实 验 样 
本 来 自 于 哪个 总 体 ? 讨论 这 种 类 型 的 取样 会 对 实验 的 外 部 有 效 性 产生 何 种 影响 ?如 何 
进行 不 同 的 取样 ? 


表 A-5 设计 练习 的 数据 














坏 的 面向 对 象 设计 


好 的 面向 对 象 设计 
Mod_ Time | Mod_Comp | Mod_ Corr | Mod_ Rate | Mod_ Time 











0. 545 











0. 818 
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( 续 ) 


好 的 面向 对 象 设计 坏 的 面向 对 象 设计 








参与 者 | 组 
Mod_ Time | Mod_Comp | Mod_ Corr | Mod_ Rate | Mod_ Time |Mod_Comp| Mod_Corr | Mod_Rate 
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A. 1.5 审查 


本 练习 参考 第 13 章 中 的 实验 案例 。 

1. 参照 第 11 章 中 的 定义 ， 重 写 第 13 章 的 摘要 ， 使 之 成 为 结构 化 摘要 。 

2. 针对 该 实验 进行 精确 复制 实验 ， 执 行 “ 确 定 范围 ”和 “计划 ”步骤 。 尤 其 要 
确定 需要 多 少 实验 主体 参与 ， 才 能 达到 给 定 的 分 析 置 信和 度 。 

3， 针 对 该 实验 进行 差分 复制 实验 ， 执 行 “ 确 定 范围 ”步骤 。 为 三 种 不 同 的 复制 
处 置 定 义 三 种 目标 模板 。 根 据 成 本 、 风 险 和 收益 讨论 每 种 处 置 的 利弊 〈 见 图 2-1) 。 


A.2 回顾 


以 下 列举 了 一 系列 问题 ， 它 们 对 研读 或 者 评审 描述 实验 的 论文 非常 重要 。 使 用 此 
问题 列表 ， 回 顾 第 12 章 和 13 章 中 描述 的 案例 以 及 文献 中 提 及 的 实验 。 

在 读 文章 时 ， 不 仅 要 将 下 述 问题 作为 一 般 问 题 引 导 阅 读 ， 还 要 将 其 作为 检查 单 对 
照 阅读 。 例 如 : 文章 摘要 是 否 很 好 地 描述 了 论文 内 容 ? 阅读 实验 文章 需要 考虑 的 方面 
包括 : 

。 总 体 来 说 ， 实 验 可 以 理解 吗 ? 实验 有 趣 吗 ? 

。 该 实验 有 实用 价值 吗 ? 

。 总 结 和 引用 了 讨论 这 个 问题 的 其 他 实验 吗 ? 

。 实验 中 的 实验 总 体 有 多 少 ? 

。 使 用 的 样本 是 否 具有 代表 性 ? 

。 是 否 明 确定 义 了 非 独 立 变量 和 独立 变量 ? 

。 是 否 清 晰 地 陈述 了 假设 ? 

© 是 否 明 确 陈述 了 实验 的 设计 类 型 ? 

。 设计 是 否 正确 ? 

。 操作 指南 描述 是 否 正确 ? 

。 是 否认 真 分 析 了 实验 有 效 性 ， 是 否 有 说 服 力 ? 

© 不 同类 型 的 有 效 性 威胁 处 理 得 恰当 吗 ? 

。 数据 已 经 确认 吗 ? 

。 统计 检验 效能 足够 吗 ? 实验 主体 足够 吗 ? 

。 使 用 了 合适 的 统计 检验 么 ? 使 用 的 是 参数 检验 还 是 非 参数 检验 ， 且 使 用 正 

确 吗 ? 

。 是 否 使 用 了 适当 的 显著 性 水 平 ? 
数据 解释 得 正确 吗 ? 
结论 正确 吗 ? 
结果 没有 被 夸大 吗 ? 

。 能 够 重复 这 个 实验 研究 吗 ? 
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o 数据 提供 了 吗 ? 
© 可 能 用 结果 进行 元 分 析 吗 ? 
。 阐明 了 需要 进行 的 进一步 工作 和 实验 吗 ? 


A.3 任务 


以 下 任务 的 总 体 背景 : 一 个 公司 希望 通过 改变 软件 过 程 来 改进 工作 方式 。 假 如 该 
公司 聘请 你 作为 咨询 专家 ， 和 希望 你 根据 已 有 过 程 评 估 有 关 的 新 技术 和 方法 。 公 司 布 望 
知道 他 们 是 否 应 该 改变 原来 的 软件 过 程 。 

他 们 和 希望 你 找到 合适 的 文献 ， 回 顾 有 关 本 主题 的 现 有 文献 ， 进 行 实验 ， 并 撰写 一 
个 包含 建议 的 报告 。 在 建议 中 ,不仅 要 论述 实验 的 结果 ， 还 要 讨论 与 是 否 改变 已 有 软 
件 过 程 这 一 决策 相关 的 问题 ， 以 及 改变 过 程 的 成 本 、 收 益 等 其 他 相关 问题 。 如 果 无 法 
确定 成 本 ， 需 要 进行 成 本 估算 ， 给 出 相对 成 本 。 

这 些 任务 是 特意 设计 得 相对 开放 的 ， 人 允许 各 种 解释 和 讨论 。 每 项 任务 都 对 执行 该 
任务 所 需 的 前 提 条 件 进行 了 说 明 ， 然 后 简短 地 对 实际 的 任务 进行 了 描述 。 应 该 注意 到 ， 
以 下 任务 是 那些 可 能 进行 的 实验 的 一 些 示 例 。 需 要 牢记 的 是 ， 任 务 的 主要 目的 是 提供 
实践 机 会 ， 将 实验 作为 评估 程序 的 一 部 分 。 

最 后 ， 应 该 指出 的 是 ， 目 前 一 些 组 织 提 供 的 实验 包 可 以 用 来 做 重复 实验 。 实 验 包 
使 得 我 们 能 够 在 别人 的 基础 上 工作 ， 从 而 也 有 望 通过 重复 实验 获得 更 普遍 的 有 效 结果 ， 
因此 ， 实 验 包 是 非常 重要 的 。 通 过 互联 网 可 以 搜索 到 一 些 实验 包 ， 也 可 以 通过 联系 原 
始 实验 者 获取 支持 ， 或 许 还 能 得 到 他 们 的 未 公开 的 实验 包 。 


A. 3.1 单元 测试 和 代码 审查 


公司 希望 评估 引入 代码 审查 是 否 符合 成 本 效益 。 目 前 ， 针 对 没有 被 审查 过 的 代码 
的 单元 测试 已 经 完成 。 这 是 最 好 的 方式 吗 ? 

前 提 条 件 

。 一 个 合适 的 带 有 缺陷 的 程序 : 这 些 缺 陷 能 够 在 审查 或 测试 过 程 中 被 找到 。 

。 一 种 审查 方法 : 它 可 以 是 某 种 特定 的 审查 方法 ， 但 最 好 是 实用 的 方法 ， 如 检查 
单 法 。 若 采用 检查 单 法 ， 则 还 需要 一 个 检查 单 。 

。 一 种 测试 方法 : 它 也 可 以 是 某 种 特定 方法 ， 但 最 好 是 基于 使 用 或 等 价 类 划分 的 
方法 。 

任务 

© 评估 引入 代码 审查 是 否 符合 成 本 效益 。 


A. 3.2 审查 方法 


有 几 种 不 同 的 审查 方法 可 用 。 公 司 希 望 从 两 种 候选 方法 中 找 出 更 佳 的 审查 方法 。 
那么 对 于 公司 来 说 ， 哪 种 方法 更 好 呢 ? 








前 提 条 件 

。 需要 提供 合适 的 待 审 查 的 软件 产品 。 

。 两 种 审查 方法 并 附 上 所 需 的 支持 ， 如 ， 检 查 单 法 需要 提供 检查 单 、 基 于 视角 的 
阅读 法 需要 提供 各 种 不 同 阅 读 视角 的 描述 ， 参 见 附录 A. 1. 5。 

任务 

。 假设 公司 希望 为 已 选 定 的 软件 产品 引入 审查 方法 ， 应 该 引入 哪 种 方法 呢 ? 确定 
哪 种 审查 方法 在 发 现 缺陷 方面 的 能 力 更 好 。 好 的 方法 有 成 本 效益 吗 ? 


A. 3. 3 ”需求 表示 法 


书写 需求 规格 说 明 是 非常 重要 的 ， 能 够 使 所 有 读者 轻松 理解 并 且 理 解 相同 。 公 司 
可 以 从 几 种 不 同 的 表示 法 中 选择 ， 那 么 描述 需求 的 最 好 方式 是 什么 ? 

前 提 条 件 

© 以 不 同 表示 法 书写 的 一 份 需求 规格 说 明 ， 例如， 自然 语言 描述 和 图 形 法 描述 的 
同一 份 需求 规格 说 明 。 

任务 

。 假设 公司 目前 使 用 自然 语言 描述 需求 规格 说 明 ， 评 估 改 变 公司 的 需求 规格 说 明 
表示 法 是 否 有 益 ? 
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本 附录 包含 了 显著 性 水 平 为 5% 的 统计 表 。 更 多 详尽 表格 可 以 在 诸如 [119] 的 统 
计 学 书 中 找到 ， 同 时 ， 这 些 表 也 能 在 互联 网 上 找到 。 本 附录 的 主要 目的 是 提供 一 些 信 
息 ， 以 方便 读者 理解 第 10 章 中 描述 的 假设 检验 和 后 面 的 示例 。 由 于 在 应 用 不 同 的 统计 
检验 前 了 解 底层 的 计算 是 非常 重要 的 ， 因 此 ， 即 使 在 计算 时 使 用 统计 包 ， 提 供 这 些 信 
息 也 是 非常 重要 的 。 值 得 一 提 的 是 ， 附 录 中 的 表 是 截取 的 ， 例 如， 对 于 tt- 检验 ，F- 检 
验 和 Chi-2 检验 的 值 可 以 通过 相应 的 分 布 来 计算 得 到 。 

下 面 的 统计 表 包 括 : 

e ft- 检验 ( 见 10.3.4 节 、10.3.7 节 和 表 B-1) 

e Chi-2 检验 (JL 10.3.12 节 和 表 B-2) 

e Mann-Whitney 检验 ( JL 10.3.5 节 和 表 B-3 ) 

e Wilcoxon 检验 (JL 10.3.8 节 和 表 B-4) 

。 下 -检验 ( 见 10.3.6 节 、10.3. 10 节 和 表 B-5) 

请 注意 ， 在 表 B-3 H, M 代表 小 样本 的 量 ，Ns 代 表 大 样本 的 量 。 

请 注意 ， 表 B-5 提供 了 显著 性 水 平 为 0.025 % 时 的 下 分 布 ,其 路 、 代表 自由 
度 ， 相 当 于 Fo oozs ,ji ,Ps 


表 B-1 双 侧 t- 检 验 临界 值 表 (5%), 参见 10. 3.4 和 10.3.7 节 
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表 B-2 HM Chi-2 检验 临界 值 表 (5% ) ， 参 见 10. 3. 12 节 




































































自 由 度 x? 自 由 度 x? 
1 3. 84 18 28. 87 
2 5.99 19 30. 14 
3 7.81 20 31.41 
4 9.49 21 | 32. 67 
5 11. 07 22 33.92 
6 12. 59 23 35.17 
7 14. 07 24 36. 42 
8 | 15.51 25 37. 65 
9 | 16. 92 26 38. 88 
10 18. 31 27 40. 11 
11 19. 68 28 41.34 
12 21. 03 29 42.56 
13 22. 36 30 43.77 
14 23. 68 40 55. 76 
15 25. 00 60 79. 08 
16 26. 30 80 101. 88 
17 27. 59 100 124. 34 
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表 B-4 双 侧 配对 Wilcoxon 检验 临界 值 表 (5% ) ， 参 见 10. 3. 8 # 





















































n T 
6 | 0 
7 2 
8 3 
9 p 5 
10 | 8 
11 10 
12 13 
13 17 
14 | 21 
15 25 
16 | 29 
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